論文の概要: Data Quality Challenges in Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2510.00552v1
- Date: Wed, 01 Oct 2025 06:13:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.40824
- Title: Data Quality Challenges in Retrieval-Augmented Generation
- Title(参考訳): 検索型世代におけるデータ品質の課題
- Authors: Leopold Müller, Joshua Holstein, Sarah Bause, Gerhard Satzger, Niklas Kühl,
- Abstract要約: Retrieval-Augmented Generation (RAG)は、企業固有の知識を持つ大規模言語モデルを強化する。
現在のデータ品質(DQ)フレームワークは主に静的データセット用に開発されており、RAGシステムの動的で多段階的な性質に十分対応していない。
この研究は、この新しいタイプのAIベースのシステムのためのDQ次元を開発することを目的としている。
- 参考スコア(独自算出の注目度): 6.63273522593436
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Organizations increasingly adopt Retrieval-Augmented Generation (RAG) to enhance Large Language Models with enterprise-specific knowledge. However, current data quality (DQ) frameworks have been primarily developed for static datasets, and only inadequately address the dynamic, multi-stage nature of RAG systems. This study aims to develop DQ dimensions for this new type of AI-based systems. We conduct 16 semi-structured interviews with practitioners of leading IT service companies. Through a qualitative content analysis, we inductively derive 15 distinct DQ dimensions across the four processing stages of RAG systems: data extraction, data transformation, prompt & search, and generation. Our findings reveal that (1) new dimensions have to be added to traditional DQ frameworks to also cover RAG contexts; (2) these new dimensions are concentrated in early RAG steps, suggesting the need for front-loaded quality management strategies, and (3) DQ issues transform and propagate through the RAG pipeline, necessitating a dynamic, step-aware approach to quality management.
- Abstract(参考訳): 組織は、企業固有の知識で大規模言語モデルを強化するために、Retrieval-Augmented Generation (RAG)をますます採用している。
しかし、現在のデータ品質(DQ)フレームワークは主に静的データセット向けに開発されており、RAGシステムの動的で多段階的な性質に不十分に対処しているだけである。
この研究は、この新しいタイプのAIベースのシステムのためのDQ次元を開発することを目的としている。
私たちは、主要なITサービス企業の実践者に対して、半構造化された16のインタビューを行います。
定性的内容分析により,データ抽出,データ変換,プロンプト・アンド・サーチ,生成の4段階にわたるDQ次元を導出する。
その結果,(1) 従来の DQ フレームワークに新たな次元を追加して RAG のコンテキストをカバーし,(2) 早期の RAG ステップに集中して,前装品質管理戦略の必要性を示唆すること,(3) DQ の問題が RAG パイプラインを通じて変容・伝播し,動的で段階対応的な品質管理アプローチを必要とすること,などが判明した。
関連論文リスト
- Predict the Retrieval! Test time adaptation for Retrieval Augmented Generation [66.36556189794526]
TTARAGは、特殊ドメインにおけるRAGシステム性能を改善するために、推論中に言語モデルのパラメータを動的に更新するテスト時適応手法である。
提案手法では,モデルが検索した内容の予測を学習し,対象領域への自動パラメータ調整を可能にする。
論文 参考訳(メタデータ) (2026-01-16T17:07:01Z) - VeriSciQA: An Auto-Verified Dataset for Scientific Visual Question Answering [53.662676566188175]
重要なボトルネックは、パブリックで大規模で高品質なビジュアル質問回答(SVQA)データセットの欠如にある。
本稿では、まず、図形関連テクストコンテキストとQAペアを生成する検証中心のGenerate-then-Verifyフレームワークを提案する。
このフレームワークをインスタンス化し、20の科学的ドメインと12のフィギュアタイプからなる20,351のQAペアのデータセットであるVeriSciQAをキュレートします。
論文 参考訳(メタデータ) (2025-11-25T04:14:52Z) - Domain-Specific Data Generation Framework for RAG Adaptation [58.20906914537952]
Retrieval-Augmented Generation (RAG)は、大規模言語モデルの言語理解と推論能力と外部検索を組み合わせ、ドメイン基底応答を可能にする。
本稿では,様々なRAG適応手法に合わせて,ドメイン基底型質問応答コンテキスト(QAC)トリプルを生成するフレームワークであるRAGenを提案する。
論文 参考訳(メタデータ) (2025-10-13T09:59:49Z) - d-DQIVAR: Data-centric Visual Analytics and Reasoning for Data Quality Improvement [2.696480125327807]
我々のシステムは、データ駆動とプロセス駆動の両方のアプローチを利用する視覚分析技術を統合する。
本稿では,本システムによってユーザに対して,実践的なワークフロー内で専門家やドメイン知識を効果的に活用することを可能にする方法について説明する。
論文 参考訳(メタデータ) (2025-07-16T06:45:08Z) - HIRAG: Hierarchical-Thought Instruction-Tuning Retrieval-Augmented Generation [16.201341932327036]
我々は、新しいRAG命令微調整手法、階層型命令-調整型検索生成(HIRAG)を導入する。
この方法は,多段階のプログレッシブ・チェーン・オブ・シントを利用して,モデルのオープンブック検査能力を向上させる。
実験によると、HIRAGトレーニング戦略は、RGB、PopQA、MuSiQue、HotpotQA、PubmedQAといったデータセット上でのモデルのパフォーマンスを大幅に改善する。
論文 参考訳(メタデータ) (2025-07-08T06:53:28Z) - DACL-RAG: Data Augmentation Strategy with Curriculum Learning for Retrieval-Augmented Generation [54.26665681604041]
DACL-RAGは多段階データ拡張戦略と多段階学習パラダイムを組み合わせた多段階RAGトレーニングフレームワークである。
我々のフレームワークは、4つのオープンドメインQAデータセットで一貫した有効性を示し、複数の高度なメソッドに対して2%から4%のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-05-15T16:53:04Z) - A Survey on Knowledge-Oriented Retrieval-Augmented Generation [45.65542434522205]
近年,RAG (Retrieval-Augmented Generation) が注目されている。
RAGは大規模検索システムと生成モデルを組み合わせる。
動的外部知識を用いた生成モデルの強化など,RAGの重要な特徴について論じる。
論文 参考訳(メタデータ) (2025-03-11T01:59:35Z) - Understanding the Design Decisions of Retrieval-Augmented Generation Systems [7.10184268156888]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル(LLM)能力を向上するための重要な技術として登場した。
本稿では,3つの共通RAG展開決定に関する総合的研究について紹介する。
論文 参考訳(メタデータ) (2024-11-29T04:25:31Z) - Few-Shot Image Quality Assessment via Adaptation of Vision-Language Models [93.91086467402323]
Gradient-Regulated Meta-Prompt IQA Framework (GRMP-IQA) は、視覚言語事前学習モデルのCLIPをIQAタスクに効率よく適応させるように設計されている。
GRMP-IQAは、 (i) Meta-Prompt 事前学習モジュールと (ii) Quality-Aware Gradient Regularization の2つのコアモジュールから構成される。
論文 参考訳(メタデータ) (2024-09-09T07:26:21Z) - Q-Ground: Image Quality Grounding with Large Multi-modality Models [61.72022069880346]
Q-Groundは、大規模な視覚的品質グラウンドに取り組むための最初のフレームワークである。
Q-Groundは、大規模なマルチモダリティモデルと詳細な視覚的品質分析を組み合わせる。
コントリビューションの中心は、QGround-100Kデータセットの導入です。
論文 参考訳(メタデータ) (2024-07-24T06:42:46Z) - Thread: A Logic-Based Data Organization Paradigm for How-To Question Answering with Retrieval Augmented Generation [65.45017060706266]
ハウツー質問は意思決定に不可欠であり、動的でステップバイステップのレスポンスを必要とする。
我々は,ハウツー質問をより効果的に処理できる新しいデータ組織パラダイムThreadを提案する。
具体的には、「論理単位」(LU)という新たな知識を導入し、大きな言語モデルによって文書をより構造化され、疎結合なLUに変換する。
論文 参考訳(メタデータ) (2024-06-19T09:14:41Z) - Retrieval-Augmented Generation for AI-Generated Content: A Survey [38.50754568320154]
このような課題に対処するためのパラダイムとして,レトリーバル拡張生成(RAG)が登場している。
RAGは情報検索プロセスを導入し、利用可能なデータストアから関連オブジェクトを検索することで生成プロセスを強化する。
本稿では,RAG手法をAIGCシナリオに統合する既存の取り組みを概観的にレビューする。
論文 参考訳(メタデータ) (2024-02-29T18:59:01Z) - Retrieval-Augmented Generation for Large Language Models: A Survey [17.82361213043507]
大きな言語モデル(LLM)には印象的な能力があるが、幻覚のような課題に直面している。
Retrieval-Augmented Generation (RAG) は,外部データベースからの知識を取り入れた,有望なソリューションとして登場した。
論文 参考訳(メタデータ) (2023-12-18T07:47:33Z) - QASnowball: An Iterative Bootstrapping Framework for High-Quality
Question-Answering Data Generation [67.27999343730224]
QAデータ拡張のための反復型ブートストラップフレームワーク(QASnowball)を導入する。
QASnowballは、教師付きサンプルのシードセットに基づいて、大規模で高品質なQAデータを反復的に生成することができる。
本研究では, 高資源の英語シナリオと中資源の中国語シナリオで実験を行い, 実験結果から, QASnowball が生成したデータによりQAモデルを容易に作成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-19T05:20:36Z) - Hybrid Generative-Retrieval Transformers for Dialogue Domain Adaptation [77.62366712130196]
マルチドメイン MetaLWOz データセットに微調整した GPT-2 に基づくハイブリッド生成・検索モデル DSTC8 の高速領域適応タスクにおける入賞条件について述べる。
提案モデルでは,MetaLWOz上の解析論理をフォールバックとして使用し,人間の評価におけるSoTA(第2位システムよりも4%向上)と,未知のMultiWOZデータセットに適応した競合一般化性能を実現する。
論文 参考訳(メタデータ) (2020-03-03T18:07:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。