論文の概要: Data Quality Challenges in Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2510.00552v1
- Date: Wed, 01 Oct 2025 06:13:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.40824
- Title: Data Quality Challenges in Retrieval-Augmented Generation
- Title(参考訳): 検索型世代におけるデータ品質の課題
- Authors: Leopold Müller, Joshua Holstein, Sarah Bause, Gerhard Satzger, Niklas Kühl,
- Abstract要約: Retrieval-Augmented Generation (RAG)は、企業固有の知識を持つ大規模言語モデルを強化する。
現在のデータ品質(DQ)フレームワークは主に静的データセット用に開発されており、RAGシステムの動的で多段階的な性質に十分対応していない。
この研究は、この新しいタイプのAIベースのシステムのためのDQ次元を開発することを目的としている。
- 参考スコア(独自算出の注目度): 6.63273522593436
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Organizations increasingly adopt Retrieval-Augmented Generation (RAG) to enhance Large Language Models with enterprise-specific knowledge. However, current data quality (DQ) frameworks have been primarily developed for static datasets, and only inadequately address the dynamic, multi-stage nature of RAG systems. This study aims to develop DQ dimensions for this new type of AI-based systems. We conduct 16 semi-structured interviews with practitioners of leading IT service companies. Through a qualitative content analysis, we inductively derive 15 distinct DQ dimensions across the four processing stages of RAG systems: data extraction, data transformation, prompt & search, and generation. Our findings reveal that (1) new dimensions have to be added to traditional DQ frameworks to also cover RAG contexts; (2) these new dimensions are concentrated in early RAG steps, suggesting the need for front-loaded quality management strategies, and (3) DQ issues transform and propagate through the RAG pipeline, necessitating a dynamic, step-aware approach to quality management.
- Abstract(参考訳): 組織は、企業固有の知識で大規模言語モデルを強化するために、Retrieval-Augmented Generation (RAG)をますます採用している。
しかし、現在のデータ品質(DQ)フレームワークは主に静的データセット向けに開発されており、RAGシステムの動的で多段階的な性質に不十分に対処しているだけである。
この研究は、この新しいタイプのAIベースのシステムのためのDQ次元を開発することを目的としている。
私たちは、主要なITサービス企業の実践者に対して、半構造化された16のインタビューを行います。
定性的内容分析により,データ抽出,データ変換,プロンプト・アンド・サーチ,生成の4段階にわたるDQ次元を導出する。
その結果,(1) 従来の DQ フレームワークに新たな次元を追加して RAG のコンテキストをカバーし,(2) 早期の RAG ステップに集中して,前装品質管理戦略の必要性を示唆すること,(3) DQ の問題が RAG パイプラインを通じて変容・伝播し,動的で段階対応的な品質管理アプローチを必要とすること,などが判明した。
関連論文リスト
- HIRAG: Hierarchical-Thought Instruction-Tuning Retrieval-Augmented Generation [16.201341932327036]
我々は、新しいRAG命令微調整手法、階層型命令-調整型検索生成(HIRAG)を導入する。
この方法は,多段階のプログレッシブ・チェーン・オブ・シントを利用して,モデルのオープンブック検査能力を向上させる。
実験によると、HIRAGトレーニング戦略は、RGB、PopQA、MuSiQue、HotpotQA、PubmedQAといったデータセット上でのモデルのパフォーマンスを大幅に改善する。
論文 参考訳(メタデータ) (2025-07-08T06:53:28Z) - Understanding the Design Decisions of Retrieval-Augmented Generation Systems [7.10184268156888]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル(LLM)能力を向上するための重要な技術として登場した。
本稿では,3つの共通RAG展開決定に関する総合的研究について紹介する。
論文 参考訳(メタデータ) (2024-11-29T04:25:31Z) - Few-Shot Image Quality Assessment via Adaptation of Vision-Language Models [93.91086467402323]
Gradient-Regulated Meta-Prompt IQA Framework (GRMP-IQA) は、視覚言語事前学習モデルのCLIPをIQAタスクに効率よく適応させるように設計されている。
GRMP-IQAは、 (i) Meta-Prompt 事前学習モジュールと (ii) Quality-Aware Gradient Regularization の2つのコアモジュールから構成される。
論文 参考訳(メタデータ) (2024-09-09T07:26:21Z) - Q-Ground: Image Quality Grounding with Large Multi-modality Models [61.72022069880346]
Q-Groundは、大規模な視覚的品質グラウンドに取り組むための最初のフレームワークである。
Q-Groundは、大規模なマルチモダリティモデルと詳細な視覚的品質分析を組み合わせる。
コントリビューションの中心は、QGround-100Kデータセットの導入です。
論文 参考訳(メタデータ) (2024-07-24T06:42:46Z) - Thread: A Logic-Based Data Organization Paradigm for How-To Question Answering with Retrieval Augmented Generation [65.45017060706266]
ハウツー質問は意思決定に不可欠であり、動的でステップバイステップのレスポンスを必要とする。
我々は,ハウツー質問をより効果的に処理できる新しいデータ組織パラダイムThreadを提案する。
具体的には、「論理単位」(LU)という新たな知識を導入し、大きな言語モデルによって文書をより構造化され、疎結合なLUに変換する。
論文 参考訳(メタデータ) (2024-06-19T09:14:41Z) - Retrieval-Augmented Generation for Large Language Models: A Survey [17.82361213043507]
大きな言語モデル(LLM)には印象的な能力があるが、幻覚のような課題に直面している。
Retrieval-Augmented Generation (RAG) は,外部データベースからの知識を取り入れた,有望なソリューションとして登場した。
論文 参考訳(メタデータ) (2023-12-18T07:47:33Z) - QASnowball: An Iterative Bootstrapping Framework for High-Quality
Question-Answering Data Generation [67.27999343730224]
QAデータ拡張のための反復型ブートストラップフレームワーク(QASnowball)を導入する。
QASnowballは、教師付きサンプルのシードセットに基づいて、大規模で高品質なQAデータを反復的に生成することができる。
本研究では, 高資源の英語シナリオと中資源の中国語シナリオで実験を行い, 実験結果から, QASnowball が生成したデータによりQAモデルを容易に作成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-19T05:20:36Z) - Hybrid Generative-Retrieval Transformers for Dialogue Domain Adaptation [77.62366712130196]
マルチドメイン MetaLWOz データセットに微調整した GPT-2 に基づくハイブリッド生成・検索モデル DSTC8 の高速領域適応タスクにおける入賞条件について述べる。
提案モデルでは,MetaLWOz上の解析論理をフォールバックとして使用し,人間の評価におけるSoTA(第2位システムよりも4%向上)と,未知のMultiWOZデータセットに適応した競合一般化性能を実現する。
論文 参考訳(メタデータ) (2020-03-03T18:07:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。