論文の概要: Retrieval-Augmented Generation with Conflicting Evidence
- arxiv url: http://arxiv.org/abs/2504.13079v1
- Date: Thu, 17 Apr 2025 16:46:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:38:51.803495
- Title: Retrieval-Augmented Generation with Conflicting Evidence
- Title(参考訳): 競合するエビデンスを持つ検索拡張生成
- Authors: Han Wang, Archiki Prasad, Elias Stengel-Eskin, Mohit Bansal,
- Abstract要約: 大規模言語モデル (LLM) エージェントは、応答の事実性を改善するために、検索強化世代 (RAG) をますます採用している。
実際には、これらのシステムは曖昧なユーザクエリを処理し、複数のソースからの情報に衝突する可能性がある。
RAMDocs(Retrieval with Ambiguity and Misinformation in Documents)は,ユーザクエリのエビデンスを矛盾させるような,複雑で現実的なシナリオをシミュレートする新しいデータセットである。
- 参考スコア(独自算出の注目度): 57.66282463340297
- License:
- Abstract: Large language model (LLM) agents are increasingly employing retrieval-augmented generation (RAG) to improve the factuality of their responses. However, in practice, these systems often need to handle ambiguous user queries and potentially conflicting information from multiple sources while also suppressing inaccurate information from noisy or irrelevant documents. Prior work has generally studied and addressed these challenges in isolation, considering only one aspect at a time, such as handling ambiguity or robustness to noise and misinformation. We instead consider multiple factors simultaneously, proposing (i) RAMDocs (Retrieval with Ambiguity and Misinformation in Documents), a new dataset that simulates complex and realistic scenarios for conflicting evidence for a user query, including ambiguity, misinformation, and noise; and (ii) MADAM-RAG, a multi-agent approach in which LLM agents debate over the merits of an answer over multiple rounds, allowing an aggregator to collate responses corresponding to disambiguated entities while discarding misinformation and noise, thereby handling diverse sources of conflict jointly. We demonstrate the effectiveness of MADAM-RAG using both closed and open-source models on AmbigDocs -- which requires presenting all valid answers for ambiguous queries -- improving over strong RAG baselines by up to 11.40% and on FaithEval -- which requires suppressing misinformation -- where we improve by up to 15.80% (absolute) with Llama3.3-70B-Instruct. Furthermore, we find that RAMDocs poses a challenge for existing RAG baselines (Llama3.3-70B-Instruct only obtains 32.60 exact match score). While MADAM-RAG begins to address these conflicting factors, our analysis indicates that a substantial gap remains especially when increasing the level of imbalance in supporting evidence and misinformation.
- Abstract(参考訳): 大規模言語モデル (LLM) エージェントは、応答の事実性を改善するために、検索強化世代 (RAG) をますます採用している。
しかし、実際には、これらのシステムは曖昧なユーザクエリを処理し、複数のソースからの情報と矛盾する可能性があると同時に、ノイズや無関係なドキュメントからの不正確な情報を抑える必要があることが多い。
従来の研究は、ノイズや誤報に対するあいまいさや頑健さの扱いなど、一度に1つの側面だけを考慮して、これらの課題を個別に研究し、解決してきた。
代わりに複数の要因を同時に検討し、提案します
(i)RAMDocs(文書における曖昧さと誤報の検索)は、曖昧さ、誤報、ノイズを含むユーザクエリのエビデンスを矛盾させる複雑な現実的なシナリオをシミュレートする新しいデータセットである。
(二)MADAM-RAG(MADAM-RAG)は、LLMエージェントが複数のラウンドで解答のメリットについて議論し、誤報やノイズを排除しつつ、曖昧な実体に対応する応答を照合し、多様な紛争の原因を共同で扱うことができるマルチエージェントアプローチである。
我々は、AmbigDocsのクローズドモデルとオープンソースモデルの両方を用いたMADAM-RAGの有効性を実証する。これは、曖昧なクエリに対して有効な答えを全て提示する必要がある -- 強力なRAGベースラインを最大11.40%改善し、フェイスエバルを最大15.80%改善するLlama3.3-70B-Instruct。
さらに、RAMDocsは既存のRAGベースラインに挑戦する(Llama3.3-70B-Instructは32.60の正確なマッチスコアしか取得できない)。
MADAM-RAGはこれらの矛盾する要因に対処し始めていますが、証拠や誤報を裏付ける上で、特に不均衡の度合いが高まれば、大きなギャップが残ることが我々の分析で示されています。
関連論文リスト
- Agentic Verification for Ambiguous Query Disambiguation [42.238086712267396]
本稿では,検索拡張世代(RAG)における問合せの曖昧化という課題に対処する。
本稿では,早期にレシーバとジェネレータからのフィードバックを取り入れて,ダイバーシフィケーションと検証を一体化するための共同手法を提案する。
広く採用されているASQAベンチマークにおいて,本手法の有効性と有効性を検証し,多種多様かつ検証可能な解釈を実現する。
論文 参考訳(メタデータ) (2025-02-14T18:31:39Z) - Fostering Appropriate Reliance on Large Language Models: The Role of Explanations, Sources, and Inconsistencies [66.30619782227173]
大規模言語モデル(LLMs)は、流動的で説得力のある誤った応答を生成することができる。
ユーザの信頼を形作るLCM応答のいくつかの特徴を同定する。
説明は正しい応答と誤応答の両方に依存することが判明した。
情報源が提供された場合や説明が矛盾している場合の誤った応答への依存度は低い。
論文 参考訳(メタデータ) (2025-02-12T16:35:41Z) - Parallel Key-Value Cache Fusion for Position Invariant RAG [55.9809686190244]
大規模言語モデル(LLM)は、コンテキスト内の関連する情報の位置に敏感である。
入力コンテキスト順序に関係なく,デコーダのみのモデルに対して一貫した出力を生成するフレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-13T17:50:30Z) - MAIN-RAG: Multi-Agent Filtering Retrieval-Augmented Generation [34.66546005629471]
大規模言語モデル(LLM)は、様々な自然言語処理タスクに不可欠なツールであるが、時代遅れや誤った情報の生成に悩まされることが多い。
Retrieval-Augmented Generation (RAG)は、外部のリアルタイム情報検索をLLM応答に組み込むことでこの問題に対処する。
この問題に対処するため,マルチエージェントフィルタ検索検索生成(MAIN-RAG)を提案する。
MAIN-RAGはトレーニング不要なRAGフレームワークで、複数のLCMエージェントを利用して検索した文書のフィルタリングとスコア付けを行う。
論文 参考訳(メタデータ) (2024-12-31T08:07:26Z) - Eliciting Critical Reasoning in Retrieval-Augmented Language Models via Contrastive Explanations [4.697267141773321]
Retrieval-augmented Generation (RAG) は、よりリッチな現実的コンテキストに体系的にアクセスする大規模言語モデル(LLM)をサポートするために、現代のNLPにおいて重要なメカニズムとして登場した。
近年の研究では、LLMはRAGに基づくインコンテキスト情報(誤った推論や幻覚につながる可能性のある制限)を批判的に分析するのに苦慮していることが示されている。
本稿では,RAGにおける批判的推論を,対照的な説明を通じてどのように引き起こすかを検討する。
論文 参考訳(メタデータ) (2024-10-30T10:11:53Z) - ELOQ: Resources for Enhancing LLM Detection of Out-of-Scope Questions [52.33835101586687]
大規模言語モデル(LLM)は、会話型AIシステムにおいて、ユーザの問い合わせに対する応答を生成するために広く使われている。
本研究では,文書コーパスから多様なスコープ外質問を効率的に生成する誘導幻覚に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。
SFR-RAG(SFR-RAG)について述べる。
また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文 参考訳(メタデータ) (2024-09-16T01:08:18Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z) - Why So Gullible? Enhancing the Robustness of Retrieval-Augmented Models against Counterfactual Noise [14.38859858538404]
検索された文書セットでは、「関連」文書でさえ誤った情報や誤った情報を含むことがある。
我々の研究は、"関連"文書でさえ誤った情報や誤った情報を含む、より困難なシナリオを調査します。
本稿では,識別器を明示的に微調整したり,GPT-3.5に識別能力の付与を促すことによって,検索した文書間の知識衝突を処理する手法を提案する。
論文 参考訳(メタデータ) (2023-05-02T16:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。