論文の概要: BAS: A Decision-Theoretic Approach to Evaluating Large Language Model Confidence
- arxiv url: http://arxiv.org/abs/2604.03216v1
- Date: Fri, 03 Apr 2026 17:44:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.560113
- Title: BAS: A Decision-Theoretic Approach to Evaluating Large Language Model Confidence
- Title(参考訳): BAS: 大規模言語モデルの信頼性を評価するための決定論的アプローチ
- Authors: Sean Wu, Fredrik K. Gustafsson, Edward Phillips, Boyan Gao, Anshul Thakur, David A. Clifton,
- Abstract要約: 本稿では,大言語モデルが抑止力を考慮した意思決定を支援するかを評価するための決定論的指標である行動アライメントスコア(BAS)を紹介する。
BASは、明示的な回答または持続可能なユーティリティモデルから派生し、リスク閾値の連続体にわたって実現されたユーティリティを集約する。
理論的には、真理信頼度推定は期待されるBASユーティリティを一意に最大化し、キャリブレーションと決定-最適行動のリンクを示す。
- 参考スコア(独自算出の注目度): 22.382291859991472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) often produce confident but incorrect answers in settings where abstention would be safer. Standard evaluation protocols, however, require a response and do not account for how confidence should guide decisions under different risk preferences. To address this gap, we introduce the Behavioral Alignment Score (BAS), a decision-theoretic metric for evaluating how well LLM confidence supports abstention-aware decision making. BAS is derived from an explicit answer-or-abstain utility model and aggregates realized utility across a continuum of risk thresholds, yielding a measure of decision-level reliability that depends on both the magnitude and ordering of confidence. We show theoretically that truthful confidence estimates uniquely maximize expected BAS utility, linking calibration to decision-optimal behavior. BAS is related to proper scoring rules such as log loss, but differs structurally: log loss penalizes underconfidence and overconfidence symmetrically, whereas BAS imposes an asymmetric penalty that strongly prioritizes avoiding overconfident errors. Using BAS alongside widely used metrics such as ECE and AURC, we then construct a benchmark of self-reported confidence reliability across multiple LLMs and tasks. Our results reveal substantial variation in decision-useful confidence, and while larger and more accurate models tend to achieve higher BAS, even frontier models remain prone to severe overconfidence. Importantly, models with similar ECE or AURC can exhibit very different BAS due to highly overconfident errors, highlighting limitations of standard metrics. We further show that simple interventions, such as top-$k$ confidence elicitation and post-hoc calibration, can meaningfully improve confidence reliability. Overall, our work provides both a principled metric and a comprehensive benchmark for evaluating LLM confidence reliability.
- Abstract(参考訳): 大規模言語モデル (LLM) は、控え目な設定では自信があるが、誤った答えをもたらすことが多い。
しかし、標準評価プロトコルは、応答を必要とし、異なるリスク優先の意思決定をどのようにガイドすべきかを考慮していない。
このギャップに対処するために, LLM の信頼性が留意点を考慮した意思決定を支援するかを評価するための決定論的尺度である行動アライメントスコア(BAS)を導入する。
BASは明示的な回答または持続可能なユーティリティモデルから派生し、リスクしきい値の連続体にわたって実現されたユーティリティを集約し、信頼性の大きさと順序に依存する決定レベルの信頼性の尺度を生成する。
理論的には、真理信頼度推定は期待されるBASユーティリティを一意に最大化し、キャリブレーションと決定-最適行動のリンクを示す。
ログ損失は過信と過信を対称的に罰するのに対し、BASは過信のエラーを避けることを強く優先する非対称なペナルティを課す。
BAS と ECE や AURC といった広く使われている指標を併用して,複数の LLM やタスクにまたがる自己報告された信頼性のベンチマークを構築する。
以上の結果から,より大規模で高精度なモデルではBASが向上する傾向にあるが,フロンティアモデルにおいても深刻な過信が生じる傾向がみられた。
重要な点として、ECEやAURCと同じようなモデルでは、非常に過度なエラーのため、標準メトリクスの制限が強調されるため、非常に異なるBASを示すことができる。
さらに、トップ$kの信頼性評価やポストホックキャリブレーションといった単純な介入は、信頼性を有意義に向上させることができることを示す。
全体として、我々の研究は、LCMの信頼性を評価するための原則的基準と包括的なベンチマークの両方を提供する。
関連論文リスト
- Confidence Before Answering: A Paradigm Shift for Efficient LLM Uncertainty Estimation [47.91529693614168]
既存の方法は、主に回答ファーストであり、回答を生成した後のみ信頼を生み出す。
モデルが答える前に信頼を出力する信頼第一パラダイムについて検討し、このスコアを正解する確率として解釈する。
我々は,信頼度校正と正解精度をセグメント化された信用代入を通じて協調的に最適化する強化学習フレームワークであるCoCAを提案する。
論文 参考訳(メタデータ) (2026-03-06T04:03:13Z) - On Calibration of Large Language Models: From Response To Capability [66.59139960234326]
大規模言語モデル(LLM)は汎用的な問題解決手段として広くデプロイされている。
本稿では,クエリ上でモデルが期待する精度を目標とするキャリブレーションを提案する。
我々の結果は、キャパシティ校正された信頼度がpass@$k$予測と推論予算割り当てを改善することを示している。
論文 参考訳(メタデータ) (2026-02-14T01:07:45Z) - Calibration Is Not Enough: Evaluating Confidence Estimation Under Language Variations [49.84786015324238]
信頼度推定(CE)は、大きな言語モデル(LLM)の回答がどれほど信頼性が高いかを示し、ユーザの信頼と意思決定に影響を与える可能性がある。
本稿では,CEの信頼性を3つの新しい側面で評価する総合評価フレームワークを提案する。
これには、急激な摂動に対する自信の堅牢性、意味論的に等価な答えに対する安定性、意味論的に異なる答えに対する感受性が含まれる。
論文 参考訳(メタデータ) (2026-01-12T23:16:50Z) - Direct Confidence Alignment: Aligning Verbalized Confidence with Internal Confidence In Large Language Models [6.918665116014629]
トークン確率から導かれるモデルの内部信頼は、その言語化された信頼とうまく一致しない。
我々は,LLMの言語的信頼と内的信頼とを一致させるために,直接信頼アライメント(DCA)を提案する。
論文 参考訳(メタデータ) (2025-12-12T19:29:05Z) - ConfTuner: Training Large Language Models to Express Their Confidence Verbally [58.63318088243125]
大規模言語モデル(LLM)は、科学、法律、医療といった高度な領域にますます展開されている。
LLMは、しばしば「過信」(overconfidence)として知られる、高い信頼で誤った答えを生成するために観察される。
論文 参考訳(メタデータ) (2025-08-26T09:25:32Z) - Mind the Generation Process: Fine-Grained Confidence Estimation During LLM Generation [63.49409574310576]
大規模言語モデル(LLM)は自信過剰を示し、信頼度の高いスコアを誤った予測に割り当てる。
本研究では,テキスト生成中に高精度できめ細かな信頼スコアを提供する信頼度推定手法であるFineCEを紹介する。
論文で使用されたコードとすべてのベースラインはGitHubで公開されている。
論文 参考訳(メタデータ) (2025-08-16T13:29:35Z) - Overconfidence in LLM-as-a-Judge: Diagnosis and Confidence-Driven Solution [20.607071807794195]
大規模言語モデル(LLM)は自動化された判断として広く使われており、実際的な価値は正確さと信頼性の高いリスク認識の判断の両方に依存する。
既存のアプローチは主に正確さに焦点を合わせ、よく校正された信頼の必要性を見越す。
我々は、精度中心の評価から信頼性駆動型、リスク対応型LCM-as-a-Judgeシステムへの移行を提唱する。
論文 参考訳(メタデータ) (2025-08-08T11:11:22Z) - SteerConf: Steering LLMs for Confidence Elicitation [11.872504642312705]
大規模言語モデル(LLM)は、様々な領域で素晴らしいパフォーマンスを示すが、しばしば過剰な自信に悩まされる。
本稿では,LCMの信頼性スコアを体系的に評価し,キャリブレーションと信頼性を向上させる新しいフレームワークであるSteerConfを提案する。
論文 参考訳(メタデータ) (2025-03-04T18:40:49Z) - MCQA-Eval: Efficient Confidence Evaluation in NLG with Gold-Standard Correctness Labels [16.300463494913593]
大規模言語モデル (LLM) には堅牢な信頼度推定が必要である。
McQCA-Evalは、自然言語生成における信頼度を評価するための評価フレームワークである。
論文 参考訳(メタデータ) (2025-02-20T05:09:29Z) - Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection [90.71323430635593]
本稿では, LLM生成解を超える包括的解答空間を考察した, 新たな自己検出パラダイムを提案する。
このパラダイムに基づいて、2段階のフレームワークを導入し、まずまずLLMに各候補の回答を反映し、正当化するように指示する。
このフレームワークは、優れた自己検出のための既存のアプローチとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-15T02:38:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。