論文の概要: Why Uncertainty Estimation Methods Fall Short in RAG: An Axiomatic Analysis
- arxiv url: http://arxiv.org/abs/2505.07459v2
- Date: Tue, 10 Jun 2025 09:54:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:39.970071
- Title: Why Uncertainty Estimation Methods Fall Short in RAG: An Axiomatic Analysis
- Title(参考訳): RAGにおける不確実性評価手法が不足する理由--軸数解析
- Authors: Heydar Soudani, Evangelos Kanoulas, Faegheh Hasibi,
- Abstract要約: 不確実性推定(UE)はモデルの信頼性を定量化し、ユーザが応答信頼性を評価するのに役立つ。
本稿では,現在のUE手法では,検索・拡張生成設定における精度を確実に評価できないことを示す。
本稿では,既存手法の欠陥を識別し,改良手法の開発を導くための公理的枠組みを提案する。
- 参考スコア(独自算出の注目度): 15.553942864736989
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are valued for their strong performance across various tasks, but they also produce inaccurate or misleading outputs. Uncertainty Estimation (UE) quantifies the model's confidence and helps users assess response reliability. However, existing UE methods have not been thoroughly examined in scenarios like Retrieval-Augmented Generation (RAG), where the input prompt includes non-parametric knowledge. This paper shows that current UE methods cannot reliably assess correctness in the RAG setting. We further propose an axiomatic framework to identify deficiencies in existing methods and guide the development of improved approaches. Our framework introduces five constraints that an effective UE method should meet after incorporating retrieved documents into the LLM's prompt. Experimental results reveal that no existing UE method fully satisfies all the axioms, explaining their suboptimal performance in RAG. We further introduce a simple yet effective calibration function based on our framework, which not only satisfies more axioms than baseline methods but also improves the correlation between uncertainty estimates and correctness.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクにまたがる高いパフォーマンスで評価されるが、不正確なあるいは誤った出力を生成する。
不確実性推定(UE)はモデルの信頼性を定量化し、ユーザが応答信頼性を評価するのに役立つ。
しかし、既存のUE法は、入力プロンプトが非パラメトリック知識を含むレトリーバル拡張生成(RAG)のようなシナリオでは、十分に検討されていない。
本稿では,現在のUE法ではRAG設定の正確さを確実に評価できないことを示す。
さらに,既存手法の欠陥を識別し,改良された手法の開発を導くための公理的枠組みを提案する。
本フレームワークでは,抽出した文書をLCMのプロンプトに組み込んだ上で,有効なUE手法が満たすべき5つの制約を導入する。
実験の結果,既存のUE法は全ての公理に完全に満足せず,RAGの準最適性能を説明することができた。
さらに,本フレームワークをベースライン法よりも多くの公理を満たすだけでなく,不確実性推定と正しさの相関性も向上する,簡易かつ効果的な校正関数を導入する。
関連論文リスト
- SConU: Selective Conformal Uncertainty in Large Language Models [59.25881667640868]
SconU(Selective Conformal Uncertainity)と呼ばれる新しいアプローチを提案する。
我々は,特定の管理可能なリスクレベルで設定されたキャリブレーションの不確実性分布から,与えられたサンプルが逸脱するかどうかを決定するのに役立つ2つの共形p値を開発する。
我々のアプローチは、単一ドメインと学際的コンテキストの両方にわたる誤発見率の厳密な管理を促進するだけでなく、予測の効率を高める。
論文 参考訳(メタデータ) (2025-04-19T03:01:45Z) - MCQA-Eval: Efficient Confidence Evaluation in NLG with Gold-Standard Correctness Labels [16.300463494913593]
大規模言語モデル (LLM) には堅牢な信頼度推定が必要である。
McQCA-Evalは、自然言語生成における信頼度を評価するための評価フレームワークである。
論文 参考訳(メタデータ) (2025-02-20T05:09:29Z) - SAUP: Situation Awareness Uncertainty Propagation on LLM Agent [52.444674213316574]
大規模言語モデル(LLM)は多段階エージェントシステムに統合され、様々なアプリケーションにまたがる複雑な意思決定プロセスを可能にする。
既存の不確実性推定手法は主に最終段階の出力に重点を置いており、これは多段階決定プロセスにおける累積的不確実性やエージェントとその環境間の動的相互作用を考慮できない。
LLMエージェントの推論プロセスの各ステップを通じて不確実性を伝播する新しいフレームワークであるSAUPを提案する。
論文 参考訳(メタデータ) (2024-12-02T01:31:13Z) - ConU: Conformal Uncertainty in Large Language Models with Correctness Coverage Guarantees [68.33498595506941]
自己整合性理論に基づく新しい不確実性尺度を導入する。
次に,CPアルゴリズムに正当性に整合した不確かさ条件を組み込むことにより,適合性不確かさの基準を策定する。
実証的な評価は、我々の不確実性測定が過去の最先端手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-06-29T17:33:07Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Improving Instruction Following in Language Models through Proxy-Based Uncertainty Estimation [12.921225188504643]
本稿では,ペア応答の品質に対するロバストな不確実性推定を導入した不確実性認識リワードモデル(URM)を提案する。
実験結果から,提案したプロキシを言語モデルトレーニングに組み込むことによる大きなメリットが示された。
論文 参考訳(メタデータ) (2024-05-10T12:14:11Z) - ValUES: A Framework for Systematic Validation of Uncertainty Estimation in Semantic Segmentation [2.1517210693540005]
不確実性推定は、セマンティックセグメンテーション法において不可欠で研究の難しい要素である。
データ関連とモデル関連の不確実性は実際に分離できるのか?
不確実性手法のどのコンポーネントが現実世界のパフォーマンスに欠かせないのか?
論文 参考訳(メタデータ) (2024-01-16T17:02:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。