論文の概要: Calibrating Verbalized Confidence with Self-Generated Distractors
- arxiv url: http://arxiv.org/abs/2509.25532v1
- Date: Mon, 29 Sep 2025 21:41:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.337496
- Title: Calibrating Verbalized Confidence with Self-Generated Distractors
- Title(参考訳): 自己生成型ディトラクタによる垂直化信頼の校正
- Authors: Victor Wang, Elias Stengel-Eskin,
- Abstract要約: DINCO(Distractor-Normalized Coherence)を紹介する。
DINCOは、LLMの予測可能性バイアスを推定し、いくつかの自己生成障害に対してモデルに独立して信頼性を持たせることによって説明している。
我々は、自己整合性の一般的なアプローチを、サンプル世代間でのコヒーレンスを活用すること、および非互換なクレーム上での検証におけるコヒーレンスを活用することとして、言語化された信頼を正規化したものである。
- 参考スコア(独自算出の注目度): 24.56911906044891
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Calibrated confidence estimates are necessary for large language model (LLM) outputs to be trusted by human users. While LLMs can express their confidence in human-interpretable ways, verbalized LLM-generated confidence scores have empirically been found to be miscalibrated, reporting high confidence on instances with low accuracy and thereby harming trust and safety. We hypothesize that this overconfidence often stems from a given LLM's heightened suggestibility when faced with claims that it encodes little information about; we empirically validate this hypothesis, finding more suggestibility on lower-accuracy claims. Building on this finding, we introduce Distractor-Normalized Coherence (DINCO), which estimates and accounts for an LLM's suggestibility bias by having the model verbalize its confidence independently across several self-generated distractors (i.e. alternative claims), and normalizes by the total verbalized confidence. To further improve calibration, we leverage generator-validator disagreement, augmenting normalized validator confidence with a consistency-based estimate of generator confidence. Here, we frame the popular approach of self-consistency as leveraging coherence across sampled generations, and normalized verbalized confidence as leveraging coherence across validations on incompatible claims, allowing us to integrate these complementary dimensions of coherence into DINCO. Moreover, our analysis shows that DINCO provides less saturated -- and therefore more usable -- confidence estimates, and that further sampling alone cannot close the gap between DINCO and baselines, with DINCO at 10 inference calls outperforming self-consistency at 100.
- Abstract(参考訳): 大規模言語モデル (LLM) の出力は, 人間の信頼を得るためには, キャリブレーションされた信頼度推定が必要である。
LLMは人間の解釈可能な方法での信頼を表現できるが、言語化されたLLM生成の信頼スコアは実証的に誤解され、精度の低いインスタンスに高い信頼を報告し、信頼と安全を損なう。
我々は、この過信は、LLMがほとんど情報をエンコードしていないという主張に直面した場合に、与えられたLLMの示唆可能性を高めることに起因していると仮定し、この仮説を実証的に検証し、より低い精度の主張に対する示唆可能性を見出す。
そこで本研究では, 自己生成型分散器(代替クレーム)に独立して信頼度を定式化し, 全言語的信頼度で正規化することにより, LLMの予測可能性バイアスを推定し, 評価するDistractor-Normalized Coherence(DINCO)を提案する。
さらにキャリブレーションを改善するために, ジェネレータ検証の不一致を利用して正規化検証器の信頼性を向上し, 整合性に基づくジェネレータの信頼度の推定を行う。
ここでは、自己整合性の一般的なアプローチを、サンプル世代間でのコヒーレンスを活用すること、および非互換なクレーム上での検証におけるコヒーレンスを活用することによる言語的信頼を正規化することにより、これらの相補的なコヒーレンスをDINCOに統合することが可能になる。
さらに,DINCOは,DINCOとベースラインのギャップを埋めることが不可能であり,DINCOが10の推論で100の自己整合性を上回ることが示唆された。
関連論文リスト
- Can Large Language Models Express Uncertainty Like Human? [71.27418419522884]
我々は,人間に注釈を付けた信頼スコアを持つヘッジ式の最初の多種多様な大規模データセットをリリースする。
現代大言語モデルにまたがる言語信頼に関する最初の体系的研究を行う。
論文 参考訳(メタデータ) (2025-09-29T02:34:30Z) - ConfTuner: Training Large Language Models to Express Their Confidence Verbally [58.63318088243125]
大規模言語モデル(LLM)は、科学、法律、医療といった高度な領域にますます展開されている。
LLMは、しばしば「過信」(overconfidence)として知られる、高い信頼で誤った答えを生成するために観察される。
論文 参考訳(メタデータ) (2025-08-26T09:25:32Z) - Mind the Generation Process: Fine-Grained Confidence Estimation During LLM Generation [63.49409574310576]
大規模言語モデル(LLM)は自信過剰を示し、信頼度の高いスコアを誤った予測に割り当てる。
本研究では,テキスト生成中に高精度できめ細かな信頼スコアを提供する信頼度推定手法であるFineCEを紹介する。
論文で使用されたコードとすべてのベースラインはGitHubで公開されている。
論文 参考訳(メタデータ) (2025-08-16T13:29:35Z) - Fact-Level Confidence Calibration and Self-Correction [64.40105513819272]
本稿では,事実レベルでの信頼度と妥当性の重み付けを校正するFact-Levelフレームワークを提案する。
また,信頼度の高い自己補正(textbfConFix$)も開発した。
論文 参考訳(メタデータ) (2024-11-20T14:15:18Z) - Confidence Under the Hood: An Investigation into the Confidence-Probability Alignment in Large Language Models [14.5291643644017]
信頼性・確率アライメントの概念を紹介します。
モデルの内部と信頼感の一致を調査する。
分析したモデルのうち、OpenAIのGPT-4は信頼性と信頼性のアライメントが最強であった。
論文 参考訳(メタデータ) (2024-05-25T15:42:04Z) - When to Trust LLMs: Aligning Confidence with Response Quality [49.371218210305656]
我々はconfidence-Quality-ORDer保存アライメントアプローチ(CONQORD)を提案する。
品質報酬と秩序保存アライメント報酬機能を統合する。
実験により,CONQORDは信頼性と応答精度のアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-26T09:42:46Z) - Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection [90.71323430635593]
本稿では, LLM生成解を超える包括的解答空間を考察した, 新たな自己検出パラダイムを提案する。
このパラダイムに基づいて、2段階のフレームワークを導入し、まずまずLLMに各候補の回答を反映し、正当化するように指示する。
このフレームワークは、優れた自己検出のための既存のアプローチとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-15T02:38:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。