論文の概要: Towards Reliable Truth-Aligned Uncertainty Estimation in Large Language Models
- arxiv url: http://arxiv.org/abs/2604.00445v1
- Date: Wed, 01 Apr 2026 03:42:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.824483
- Title: Towards Reliable Truth-Aligned Uncertainty Estimation in Large Language Models
- Title(参考訳): 大規模言語モデルにおける信頼性の高い真性アライメント不確かさ推定に向けて
- Authors: Ponhvoan Srey, Quang Minh Nguyen, Xiaobao Wu, Anh Tuan Luu,
- Abstract要約: 不確実性推定(UE)は、大規模言語モデル(LLM)の幻覚出力を検出することを目的とする。
ほとんどのUEメトリクスはモデル動作に由来するので、プロキシ障害としてこの現象を定式化します。
UE測定値の補正のためのポストホックキャリブレーション法であるTrath AnChoring (TAC)を提案する。
- 参考スコア(独自算出の注目度): 54.51264434040939
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Uncertainty estimation (UE) aims to detect hallucinated outputs of large language models (LLMs) to improve their reliability. However, UE metrics often exhibit unstable performance across configurations, which significantly limits their applicability. In this work, we formalise this phenomenon as proxy failure, since most UE metrics originate from model behaviour, rather than being explicitly grounded in the factual correctness of LLM outputs. With this, we show that UE metrics become non-discriminative precisely in low-information regimes. To alleviate this, we propose Truth AnChoring (TAC), a post-hoc calibration method to remedy UE metrics, by mapping the raw scores to truth-aligned scores. Even with noisy and few-shot supervision, our TAC can support the learning of well-calibrated uncertainty estimates, and presents a practical calibration protocol. Our findings highlight the limitations of treating heuristic UE metrics as direct indicators of truth uncertainty, and position our TAC as a necessary step toward more reliable uncertainty estimation for LLMs. The code repository is available at https://github.com/ponhvoan/TruthAnchor/.
- Abstract(参考訳): 不確実性推定(UE)は、大規模言語モデル(LLM)の幻覚出力を検出し、信頼性を向上させることを目的としている。
しかしながら、UEメトリクスは、構成間で不安定なパフォーマンスを示すことが多く、適用性が著しく制限される。
本研究では,この現象を,LLM出力の事実的正当性ではなく,モデル行動に起因するので,プロキシ障害として定式化する。
これにより,低情報体制において,UE指標が正確に非識別的になることを示す。
これを軽減するために,本研究では,生のスコアを真に整合したスコアにマッピングすることで,UEメトリクスを補正するためのポストホックキャリブレーション手法であるTrath AnChoring (TAC)を提案する。
ノイズや数発の監視を伴っても、TACはよく校正された不確実性推定の学習を支援し、実用的な校正プロトコルを提供する。
本研究は, ヒューリスティックUE指標を真理不確実性の直接的な指標として扱うことの限界を強調し, LLMの信頼性の高い不確実性評価に向けた必要なステップとしてTACを位置づけた。
コードリポジトリはhttps://github.com/ponhvoan/TruthAnchor/で公開されている。
関連論文リスト
- Efficient Epistemic Uncertainty Estimation for Large Language Models via Knowledge Distillation [8.883246421566243]
ディープ・アンサンブルス(Deep Ensembles)によるエピステミック不確実性(EU)は、現代のモデルの規模で計算的に禁止されている。
トークンレベルのEUを効率的に推定するために,小型のドラフトモデルを活用するフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-02T11:03:37Z) - NAACL: Noise-AwAre Verbal Confidence Calibration for LLMs in RAG Systems [53.52419750390942]
大型言語モデル(LLM)はミッションクリティカルな事実領域で使用される。
LLMのキャリブレーション性能は, ノイズが回復した状況によって低下する。
我々は、ノイズ下での過信を解決するための原則的基盤を提供するため、NAACLルール(Noise-AwAre Confidence CaLibration Rules)を提案する。
論文 参考訳(メタデータ) (2026-01-16T05:38:25Z) - Calibration Is Not Enough: Evaluating Confidence Estimation Under Language Variations [49.84786015324238]
信頼度推定(CE)は、大きな言語モデル(LLM)の回答がどれほど信頼性が高いかを示し、ユーザの信頼と意思決定に影響を与える可能性がある。
本稿では,CEの信頼性を3つの新しい側面で評価する総合評価フレームワークを提案する。
これには、急激な摂動に対する自信の堅牢性、意味論的に等価な答えに対する安定性、意味論的に異なる答えに対する感受性が含まれる。
論文 参考訳(メタデータ) (2026-01-12T23:16:50Z) - Can Large Language Models Express Uncertainty Like Human? [71.27418419522884]
我々は,人間に注釈を付けた信頼スコアを持つヘッジ式の最初の多種多様な大規模データセットをリリースする。
現代大言語モデルにまたがる言語信頼に関する最初の体系的研究を行う。
論文 参考訳(メタデータ) (2025-09-29T02:34:30Z) - Towards Harmonized Uncertainty Estimation for Large Language Models [22.58034272573749]
不確実性推定によって世代間の信頼性を定量化することが不可欠である。
CUE(Corrector for Uncertainity Estimation:不確かさ推定のためのコレクタ)を提案する。
論文 参考訳(メタデータ) (2025-05-25T10:17:57Z) - Why Uncertainty Estimation Methods Fall Short in RAG: An Axiomatic Analysis [15.553942864736989]
不確実性推定(UE)はモデルの信頼性を定量化し、ユーザが応答信頼性を評価するのに役立つ。
本稿では,現在のUE手法では,検索・拡張生成設定における精度を確実に評価できないことを示す。
本稿では,既存手法の欠陥を識別し,改良手法の開発を導くための公理的枠組みを提案する。
論文 参考訳(メタデータ) (2025-05-12T11:47:42Z) - ConU: Conformal Uncertainty in Large Language Models with Correctness Coverage Guarantees [68.33498595506941]
自己整合性理論に基づく新しい不確実性尺度を導入する。
次に,CPアルゴリズムに正当性に整合した不確かさ条件を組み込むことにより,適合性不確かさの基準を策定する。
実証的な評価は、我々の不確実性測定が過去の最先端手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-06-29T17:33:07Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。