論文の概要: Uncertainty Quantification for Retrieval-Augmented Reasoning
- arxiv url: http://arxiv.org/abs/2510.11483v1
- Date: Mon, 13 Oct 2025 14:55:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.412909
- Title: Uncertainty Quantification for Retrieval-Augmented Reasoning
- Title(参考訳): Retrieval-Augmented Reasoningにおける不確かさの定量化
- Authors: Heydar Soudani, Hamed Zamani, Faegheh Hasibi,
- Abstract要約: Retrieval-augmented reasoning (RAR)は、検索と生成に複数の推論ステップを用いる検索強化世代(RAG)の最近の進化である。
不確実性定量化(Uncertainty Quantification、UQ)は、システムの出力の信頼性を推定する方法を提供する。
本稿では,RARの新しいUQ手法であるRetrieval-Augmented Reasoning(R2C)を紹介する。
- 参考スコア(独自算出の注目度): 40.43455995861054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-augmented reasoning (RAR) is a recent evolution of retrieval-augmented generation (RAG) that employs multiple reasoning steps for retrieval and generation. While effective for some complex queries, RAR remains vulnerable to errors and misleading outputs. Uncertainty quantification (UQ) offers methods to estimate the confidence of systems' outputs. These methods, however, often handle simple queries with no retrieval or single-step retrieval, without properly handling RAR setup. Accurate estimation of UQ for RAR requires accounting for all sources of uncertainty, including those arising from retrieval and generation. In this paper, we account for all these sources and introduce Retrieval-Augmented Reasoning Consistency (R2C)--a novel UQ method for RAR. The core idea of R2C is to perturb the multi-step reasoning process by applying various actions to reasoning steps. These perturbations alter the retriever's input, which shifts its output and consequently modifies the generator's input at the next step. Through this iterative feedback loop, the retriever and generator continuously reshape one another's inputs, enabling us to capture uncertainty arising from both components. Experiments on five popular RAR systems across diverse QA datasets show that R2C improves AUROC by over 5% on average compared to the state-of-the-art UQ baselines. Extrinsic evaluations using R2C as an external signal further confirm its effectiveness for two downstream tasks: in Abstention, it achieves ~5% gains in both F1Abstain and AccAbstain; in Model Selection, it improves the exact match by ~7% over single models and ~3% over selection methods.
- Abstract(参考訳): Retrieval-augmented reasoning (RAR)は、検索と生成に複数の推論ステップを用いる検索強化世代(RAG)の最近の進化である。
複雑なクエリには有効だが、RARはエラーやミスリードアウトプットに対して脆弱である。
不確実性定量化(Uncertainty Quantification、UQ)は、システムの出力の信頼性を推定する方法を提供する。
しかし、これらの手法は、RARセットアップを適切に処理することなく、検索やシングルステップ検索なしで単純なクエリを処理することが多い。
RARの正確なUQ推定には、検索および生成から生じるものを含むすべての不確実性ソースを考慮する必要がある。
本稿では,これらすべての情報源について考察し,RARの新しいUQ手法であるRetrieval-Augmented Reasoning Consistency (R2C)を紹介する。
R2Cの中核となる考え方は、様々なアクションを推論ステップに適用することで、多段階の推論プロセスを摂動させることである。
これらの摂動によってレトリバーの入力が変更され、出力がシフトし、次のステップでジェネレータの入力が変更される。
この繰り返しフィードバックループを通じて、レトリバーとジェネレータは互いの入力を連続的に再生成し、両方のコンポーネントから生じる不確実性を捕捉する。
さまざまなQAデータセットにまたがる5つの人気のあるRARシステムの実験によると、R2Cは最先端のUQベースラインと比較して平均で5%以上改善している。
外部信号としてR2Cを用いた外部評価では、AbstentionではF1AbstainとAccAbstainの両方で約5%のゲインを達成し、Model Selectionでは、シングルモデルで約7%、選択法で約3%の精度向上を実現している。
関連論文リスト
- REX-RAG: Reasoning Exploration with Policy Correction in Retrieval-Augmented Generation [35.0649927279081]
強化学習(RL)は、大規模言語モデル(LLM)が複雑な推論タスクを実行できるための強力なパラダイムとして浮上している。
本稿では、厳格な政策学習を維持しつつ、代替推論経路を探求するフレームワークであるREX-RAGを提案する。
その結果,REX-RAG は Qwen2.5-3B では5.1%, Qwen2.5-7B では3.6% であることがわかった。
論文 参考訳(メタデータ) (2025-08-11T16:25:25Z) - RePCS: Diagnosing Data Memorization in LLM-Powered Retrieval-Augmented Generation [0.0]
モデルは依然として記憶されたトレーニングデータに依存し、得られた証拠をバイパスし、汚染された出力を生成する。
RePCS(Retrieval-Path Contamination Scoring)は,モデルアクセスや再トレーニングを必要とせずに,そのような動作を検出する診断手法である。
論文 参考訳(メタデータ) (2025-06-18T14:48:19Z) - R3-RAG: Learning Step-by-Step Reasoning and Retrieval for LLMs via Reinforcement Learning [62.742230250513025]
Retrieval-Augmented Generation (RAG)は、外部知識をLLM(Large Language Models)と統合し、事実の正しさと幻覚を高める。
我々は、 $textbfR$einforcement Learning を用いて LLM に $textbfR$eason と $textbfR$etrieve を段階的に学習させる $textbfR3-RAG$ を提案する。
論文 参考訳(メタデータ) (2025-05-26T12:25:37Z) - ConvSearch-R1: Enhancing Query Reformulation for Conversational Search with Reasoning via Reinforcement Learning [48.01143057928348]
本稿では、強化学習を活用して外部リライト管理に依存しないフレームワークであるConvSearch-R1を提案する。
新たな2段階のアプローチは,検索誘導型自己蒸留によるコールドスタート問題に対処するために,セルフ駆動型ポリシーウォームアップと,従来型の検索指標における疎度問題に対処する特別に設計されたランクインセンティブ報酬形成機構を備えた検索誘導型強化学習を組み合わせたものである。
論文 参考訳(メタデータ) (2025-05-21T17:27:42Z) - RQ-RAG: Learning to Refine Queries for Retrieval Augmented Generation [42.82192656794179]
大きな言語モデル(LLM)は優れた能力を示すが、不正確なあるいは幻覚反応を引き起こす傾向がある。
この制限は、膨大な事前トレーニングデータセットに依存することに起因するため、目に見えないシナリオでのエラーの影響を受けやすい。
Retrieval-Augmented Generation (RAG) は、外部の関連文書を応答生成プロセスに組み込むことによって、この問題に対処する。
論文 参考訳(メタデータ) (2024-03-31T08:58:54Z) - ReFIT: Relevance Feedback from a Reranker during Inference [109.33278799999582]
Retrieve-and-Rerankは、ニューラル情報検索の一般的なフレームワークである。
本稿では,リランカを利用してリコールを改善する手法を提案する。
論文 参考訳(メタデータ) (2023-05-19T15:30:33Z) - Adversarial Retriever-Ranker for dense text retrieval [51.87158529880056]
本稿では、二重エンコーダレトリバーとクロスエンコーダローダからなるAdversarial Retriever-Ranker(AR2)を提案する。
AR2は、既存の高密度レトリバー法より一貫して大幅に優れている。
これには、R@5から77.9%(+2.1%)、TriviaQA R@5から78.2%(+1.4)、MS-MARCO MRR@10から39.5%(+1.3%)の改善が含まれている。
論文 参考訳(メタデータ) (2021-10-07T16:41:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。