論文の概要: Calibration Is Not Enough: Evaluating Confidence Estimation Under Language Variations
- arxiv url: http://arxiv.org/abs/2601.08064v1
- Date: Mon, 12 Jan 2026 23:16:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:18.976751
- Title: Calibration Is Not Enough: Evaluating Confidence Estimation Under Language Variations
- Title(参考訳): キャリブレーションは不十分:言語変化による信頼度推定の評価
- Authors: Yuxi Xia, Dennis Ulmer, Terra Blevins, Yihong Liu, Hinrich Schütze, Benjamin Roth,
- Abstract要約: 信頼度推定(CE)は、大きな言語モデル(LLM)の回答がどれほど信頼性が高いかを示し、ユーザの信頼と意思決定に影響を与える可能性がある。
本稿では,CEの信頼性を3つの新しい側面で評価する総合評価フレームワークを提案する。
これには、急激な摂動に対する自信の堅牢性、意味論的に等価な答えに対する安定性、意味論的に異なる答えに対する感受性が含まれる。
- 参考スコア(独自算出の注目度): 49.84786015324238
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Confidence estimation (CE) indicates how reliable the answers of large language models (LLMs) are, and can impact user trust and decision-making. Existing work evaluates CE methods almost exclusively through calibration, examining whether stated confidence aligns with accuracy, or discrimination, whether confidence is ranked higher for correct predictions than incorrect ones. However, these facets ignore pitfalls of CE in the context of LLMs and language variation: confidence estimates should remain consistent under semantically equivalent prompt or answer variations, and should change when the answer meaning differs. Therefore, we present a comprehensive evaluation framework for CE that measures their confidence quality on three new aspects: robustness of confidence against prompt perturbations, stability across semantic equivalent answers, and sensitivity to semantically different answers. In our work, we demonstrate that common CE methods for LLMs often fail on these metrics: methods that achieve good performance on calibration or discrimination are not robust to prompt variations or are not sensitive to answer changes. Overall, our framework reveals limitations of existing CE evaluations relevant for real-world LLM use cases and provides practical guidance for selecting and designing more reliable CE methods.
- Abstract(参考訳): 信頼度推定(CE)は、大きな言語モデル(LLM)の回答がどれほど信頼性が高いかを示し、ユーザの信頼と意思決定に影響を与える可能性がある。
既存の研究は、CEの手法をキャリブレーションによってほぼ独占的に評価し、主張された信頼度が精度と一致しているか、それとも、正しい予測のために信頼度が高いかを検証する。
しかし、これらのファセットは、LLMの文脈におけるCEの落とし穴を無視する:信頼推定は意味論的に等価なプロンプトや解答のバリエーションの下で一貫性を持ち続け、答えの意味が違うときに変化すべきである。
そこで本研究では,CE の信頼性評価フレームワークについて,迅速な摂動に対する信頼性の堅牢性,意味論的に異なる回答に対する安定性,および意味論的に異なる回答に対する感受性の3つの面で評価する。
キャリブレーションや識別における優れた性能を達成する手法は、変動を誘発するには堅牢ではないし、変化に反応するには敏感ではない。
本フレームワークは,実世界のLLMユースケースに関連する既存のCE評価の限界を明らかにし,より信頼性の高いCEメソッドの選択と設計のための実践的なガイダンスを提供する。
関連論文リスト
- Systematic Evaluation of Uncertainty Estimation Methods in Large Language Models [1.8374839804848957]
大規模言語モデル(LLM)における信頼度推定のための4つのアプローチを評価する。
我々は,最先端のオープンソース LLM を用いた4つの質問応答実験を行った。
以上の結果から,各不確実性指標がモデル信頼性の異なる面を捉え,ハイブリッドCoCoAアプローチが全体の信頼性を最大化できることが示唆された。
論文 参考訳(メタデータ) (2025-10-23T11:50:47Z) - Overconfidence in LLM-as-a-Judge: Diagnosis and Confidence-Driven Solution [20.607071807794195]
大規模言語モデル(LLM)は自動化された判断として広く使われており、実際的な価値は正確さと信頼性の高いリスク認識の判断の両方に依存する。
既存のアプローチは主に正確さに焦点を合わせ、よく校正された信頼の必要性を見越す。
我々は、精度中心の評価から信頼性駆動型、リスク対応型LCM-as-a-Judgeシステムへの移行を提唱する。
論文 参考訳(メタデータ) (2025-08-08T11:11:22Z) - MetaFaith: Faithful Natural Language Uncertainty Expression in LLMs [66.14178164421794]
メタファイト(MetaFaith)は、ヒトのメタ認知に触発された新規なプロンプトベースのキャリブレーション手法である。
MetaFaithは多種多様なモデルやタスク領域における忠実なキャリブレーションを強力に改善し、忠実度を最大61%向上させることができることを示す。
論文 参考訳(メタデータ) (2025-05-30T17:54:08Z) - Towards Harmonized Uncertainty Estimation for Large Language Models [22.58034272573749]
不確実性推定によって世代間の信頼性を定量化することが不可欠である。
CUE(Corrector for Uncertainity Estimation:不確かさ推定のためのコレクタ)を提案する。
論文 参考訳(メタデータ) (2025-05-25T10:17:57Z) - Fact-Level Confidence Calibration and Self-Correction [64.40105513819272]
本稿では,事実レベルでの信頼度と妥当性の重み付けを校正するFact-Levelフレームワークを提案する。
また,信頼度の高い自己補正(textbfConFix$)も開発した。
論文 参考訳(メタデータ) (2024-11-20T14:15:18Z) - Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection [90.71323430635593]
本稿では, LLM生成解を超える包括的解答空間を考察した, 新たな自己検出パラダイムを提案する。
このパラダイムに基づいて、2段階のフレームワークを導入し、まずまずLLMに各候補の回答を反映し、正当化するように指示する。
このフレームワークは、優れた自己検出のための既存のアプローチとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-15T02:38:26Z) - TrustScore: Reference-Free Evaluation of LLM Response Trustworthiness [58.721012475577716]
大規模言語モデル(LLM)は、様々な領域にまたがる印象的な能力を示しており、その実践的応用が急増している。
本稿では,行動整合性の概念に基づくフレームワークであるTrustScoreを紹介する。
論文 参考訳(メタデータ) (2024-02-19T21:12:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。