論文の概要: Why Uncertainty Estimation Methods Fall Short in RAG: An Axiomatic Analysis
- arxiv url: http://arxiv.org/abs/2505.07459v1
- Date: Mon, 12 May 2025 11:47:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.362634
- Title: Why Uncertainty Estimation Methods Fall Short in RAG: An Axiomatic Analysis
- Title(参考訳): RAGにおける不確実性評価手法が不足する理由--軸数解析
- Authors: Heydar Soudani, Evangelos Kanoulas, Faegheh Hasibi,
- Abstract要約: 不確実性推定(UE)はモデルの信頼性を定量化し、ユーザが応答信頼性を評価するのに役立つ。
本稿では,現在のUE手法では,検索・拡張生成設定における精度を確実に評価できないことを示す。
本稿では,既存手法の欠陥を識別し,改良手法の開発を導くための公理的枠組みを提案する。
- 参考スコア(独自算出の注目度): 15.553942864736989
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are valued for their strong performance across various tasks, but they also produce inaccurate or misleading outputs. Uncertainty Estimation (UE) quantifies the model's confidence and helps users assess response reliability. However, existing UE methods have not been thoroughly examined in scenarios like Retrieval-Augmented Generation (RAG), where the input prompt includes non-parametric knowledge. This paper shows that current UE methods cannot reliably assess correctness in the RAG setting. We further propose an axiomatic framework to identify deficiencies in existing methods and guide the development of improved approaches. Our framework introduces five constraints that an effective UE method should meet after incorporating retrieved documents into the LLM's prompt. Experimental results reveal that no existing UE method fully satisfies all the axioms, explaining their suboptimal performance in RAG. We further introduce a simple yet effective calibration function based on our framework, which not only satisfies more axioms than baseline methods but also improves the correlation between uncertainty estimates and correctness.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクにまたがる高いパフォーマンスで評価されるが、不正確なあるいは誤った出力を生成する。
不確実性推定(UE)はモデルの信頼性を定量化し、ユーザが応答信頼性を評価するのに役立つ。
しかし、既存のUE法は、入力プロンプトが非パラメトリック知識を含むレトリーバル拡張生成(RAG)のようなシナリオでは、十分に検討されていない。
本稿では,現在のUE法ではRAG設定の正確さを確実に評価できないことを示す。
さらに,既存手法の欠陥を識別し,改良された手法の開発を導くための公理的枠組みを提案する。
本フレームワークでは,抽出した文書をLCMのプロンプトに組み込んだ上で,有効なUE手法が満たすべき5つの制約を導入する。
実験の結果,既存のUE法は全ての公理に完全に満足せず,RAGの準最適性能を説明することができた。
さらに,本フレームワークをベースライン法よりも多くの公理を満たすだけでなく,不確実性推定と正しさの相関性も向上する,簡易かつ効果的な校正関数を導入する。
関連論文リスト
- Instrumental and Proximal Causal Inference with Gaussian Processes [24.834836610250765]
本研究では不確実性を考慮した因果学習のための枠組みを提案する。
我々の定式化は、一般的なカーネル推定器を後方平均として回収し、予測精度を保証します。
実証的な結果は、情報的なEU定量化とともに、強い予測性能を示している。
論文 参考訳(メタデータ) (2026-03-02T18:23:26Z) - Know What You Know: Metacognitive Entropy Calibration for Verifiable RL Reasoning [31.629261193485053]
大規模推論モデル(LRM)は、複雑な現実世界のタスクを解くための強力なパラダイムとして登場した。
既存の結果のみのRLVRパイプラインのほとんどは、バイナリの正当性信号にのみ依存しており、モデルの本質的な不確かさをほとんど無視している。
本稿では,メタ認知型エントロピーキャリブレーションフレームワークEGPOを提案する。
論文 参考訳(メタデータ) (2026-02-26T08:40:06Z) - BAPO: Boundary-Aware Policy Optimization for Reliable Agentic Search [72.87861928940929]
バウンダリ・アウェア・ポリシー・オプティマイゼーション(BAPO)は、信頼性の高い境界認識を精度を損なうことなく育成する新しいRLフレームワークである。
BAPOは2つの重要な要素を導入する: (i) グループベースの境界対応報酬(i) 推論が限界に達したときのみIDK応答を促進させる) 適応報酬変調器(ii) 早期探索中にこの報酬を戦略的に停止させ、モデルがIDKをショートカットとして利用するのを防ぐ。
論文 参考訳(メタデータ) (2026-01-16T07:06:58Z) - Calibration Is Not Enough: Evaluating Confidence Estimation Under Language Variations [49.84786015324238]
信頼度推定(CE)は、大きな言語モデル(LLM)の回答がどれほど信頼性が高いかを示し、ユーザの信頼と意思決定に影響を与える可能性がある。
本稿では,CEの信頼性を3つの新しい側面で評価する総合評価フレームワークを提案する。
これには、急激な摂動に対する自信の堅牢性、意味論的に等価な答えに対する安定性、意味論的に異なる答えに対する感受性が含まれる。
論文 参考訳(メタデータ) (2026-01-12T23:16:50Z) - Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking [64.97768177044355]
大規模言語モデル(LLM)は、現実のファクトチェックシステムにますます多くデプロイされている。
FactArenaは、完全に自動化されたアリーナスタイルの評価フレームワークである。
本研究では,静的クレーム検証精度とエンドツーエンドのファクトチェック能力の相違点を明らかにした。
論文 参考訳(メタデータ) (2026-01-06T02:51:56Z) - Towards Reliable LLM-based Robot Planning via Combined Uncertainty Estimation [68.106428321492]
大規模言語モデル (LLM) は高度な推論能力を示し、ロボットが自然言語の命令を理解し、適切な接地で高レベルな計画を生成することができる。
LLMの幻覚は重大な課題であり、しばしば過度に信頼され、不一致または安全でない計画に繋がる。
本研究は, 信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性評価を別々に評価するものである。
論文 参考訳(メタデータ) (2025-10-09T10:26:58Z) - Addressing Pitfalls in the Evaluation of Uncertainty Estimation Methods for Natural Language Generation [20.726685669562496]
幻覚は、大きな言語モデル(LLM)の信頼性を損なう一般的な問題である。
近年の研究では、LLMの予測的不確実性によって生じる幻覚のサブセット、すなわち confabulations が特定されている。
衝突を検出するため,自然言語生成における予測不確かさを推定する様々な手法が開発されている。
論文 参考訳(メタデータ) (2025-10-02T17:54:09Z) - A Context-Aware Dual-Metric Framework for Confidence Estimation in Large Language Models [6.62851757612838]
大規模言語モデル(LLM)に対する現在の信頼度推定法は,応答と文脈情報の関連性を無視する。
本稿では,2つの新しい指標を用いた信頼度推定のためのコンテキスト忠実度と一貫性を統合したCRUXを提案する。
3つのベンチマークデータセットに対する実験は、CRUXの有効性を示し、既存のベースラインよりも高いAUROCを達成した。
論文 参考訳(メタデータ) (2025-08-01T12:58:34Z) - Towards Harmonized Uncertainty Estimation for Large Language Models [22.58034272573749]
不確実性推定によって世代間の信頼性を定量化することが不可欠である。
CUE(Corrector for Uncertainity Estimation:不確かさ推定のためのコレクタ)を提案する。
論文 参考訳(メタデータ) (2025-05-25T10:17:57Z) - SConU: Selective Conformal Uncertainty in Large Language Models [59.25881667640868]
SconU(Selective Conformal Uncertainity)と呼ばれる新しいアプローチを提案する。
我々は,特定の管理可能なリスクレベルで設定されたキャリブレーションの不確実性分布から,与えられたサンプルが逸脱するかどうかを決定するのに役立つ2つの共形p値を開発する。
我々のアプローチは、単一ドメインと学際的コンテキストの両方にわたる誤発見率の厳密な管理を促進するだけでなく、予測の効率を高める。
論文 参考訳(メタデータ) (2025-04-19T03:01:45Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [48.15636223774418]
大規模言語モデル(LLM)は、不一致の自己認識に起因する幻覚の傾向にある。
本稿では,高速かつ低速な推論システムを統合し,信頼性とユーザビリティを調和させる明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - MCQA-Eval: Efficient Confidence Evaluation in NLG with Gold-Standard Correctness Labels [16.300463494913593]
大規模言語モデル (LLM) には堅牢な信頼度推定が必要である。
McQCA-Evalは、自然言語生成における信頼度を評価するための評価フレームワークである。
論文 参考訳(メタデータ) (2025-02-20T05:09:29Z) - SAUP: Situation Awareness Uncertainty Propagation on LLM Agent [52.444674213316574]
大規模言語モデル(LLM)は多段階エージェントシステムに統合され、様々なアプリケーションにまたがる複雑な意思決定プロセスを可能にする。
既存の不確実性推定手法は主に最終段階の出力に重点を置いており、これは多段階決定プロセスにおける累積的不確実性やエージェントとその環境間の動的相互作用を考慮できない。
LLMエージェントの推論プロセスの各ステップを通じて不確実性を伝播する新しいフレームワークであるSAUPを提案する。
論文 参考訳(メタデータ) (2024-12-02T01:31:13Z) - ConU: Conformal Uncertainty in Large Language Models with Correctness Coverage Guarantees [68.33498595506941]
自己整合性理論に基づく新しい不確実性尺度を導入する。
次に,CPアルゴリズムに正当性に整合した不確かさ条件を組み込むことにより,適合性不確かさの基準を策定する。
実証的な評価は、我々の不確実性測定が過去の最先端手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-06-29T17:33:07Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Improving Instruction Following in Language Models through Proxy-Based Uncertainty Estimation [12.921225188504643]
本稿では,ペア応答の品質に対するロバストな不確実性推定を導入した不確実性認識リワードモデル(URM)を提案する。
実験結果から,提案したプロキシを言語モデルトレーニングに組み込むことによる大きなメリットが示された。
論文 参考訳(メタデータ) (2024-05-10T12:14:11Z) - ValUES: A Framework for Systematic Validation of Uncertainty Estimation in Semantic Segmentation [2.1517210693540005]
不確実性推定は、セマンティックセグメンテーション法において不可欠で研究の難しい要素である。
データ関連とモデル関連の不確実性は実際に分離できるのか?
不確実性手法のどのコンポーネントが現実世界のパフォーマンスに欠かせないのか?
論文 参考訳(メタデータ) (2024-01-16T17:02:21Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。