論文の概要: How do LLMs Compute Verbal Confidence
- arxiv url: http://arxiv.org/abs/2603.17839v1
- Date: Wed, 18 Mar 2026 15:31:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.796829
- Title: How do LLMs Compute Verbal Confidence
- Title(参考訳): LLMはどのようにして言語信頼を計算するか
- Authors: Dharshan Kumaran, Arthur Conmy, Federico Barbero, Simon Osindero, Viorica Patraucean, Petar Velickovic,
- Abstract要約: 言語的信頼感は、自己評価の自動化を反映しており、ポストホック再建ではないことを示す。
これらの知見は, LLMにおけるメタ認知の理解とキャリブレーションの改善に影響を及ぼす。
- 参考スコア(独自算出の注目度): 20.456986780602964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Verbal confidence -- prompting LLMs to state their confidence as a number or category -- is widely used to extract uncertainty estimates from black-box models. However, how LLMs internally generate such scores remains unknown. We address two questions: first, when confidence is computed - just-in-time when requested, or automatically during answer generation and cached for later retrieval; and second, what verbal confidence represents - token log-probabilities, or a richer evaluation of answer quality? Focusing on Gemma 3 27B and Qwen 2.5 7B, we provide convergent evidence for cached retrieval. Activation steering, patching, noising, and swap experiments reveal that confidence representations emerge at answer-adjacent positions before appearing at the verbalization site. Attention blocking pinpoints the information flow: confidence is gathered from answer tokens, cached at the first post-answer position, then retrieved for output. Critically, linear probing and variance partitioning reveal that these cached representations explain substantial variance in verbal confidence beyond token log-probabilities, suggesting a richer answer-quality evaluation rather than a simple fluency readout. These findings demonstrate that verbal confidence reflects automatic, sophisticated self-evaluation -- not post-hoc reconstruction -- with implications for understanding metacognition in LLMs and improving calibration.
- Abstract(参考訳): LLMはブラックボックスモデルから不確実性推定を抽出するために広く利用されている。
しかし、LSMがどのようにして内部的にこのようなスコアを生成しているのかは分かっていない。
まず、信頼度が計算されたとき、要求された時にジャスト・イン・タイム、または、後で検索するために自動で応答生成され、キャッシュされます。
Gemma 3 27B と Qwen 2.5 7B に着目し,キャッシュ検索の収束した証拠を提供する。
アクティベーションステアリング、パッチ、ノーミング、スワップ実験により、自信の表現は、回答に隣接した位置で出現し、その後に言語化の場に現れる。
アテンションブロッキングは情報フローをピンポイントする: 信頼は応答トークンから収集され、最初の応答後位置でキャッシュされ、次に出力のために検索される。
批判的に、線形な探索と分散分割は、これらのキャッシュされた表現がトークンの対数確率を超える言語的信頼性のかなりのばらつきを説明できることを示している。
これらの結果から,LLMにおけるメタ認知の理解とキャリブレーションの改善が,自己評価の自動的・高度化を反映していることが示唆された。
関連論文リスト
- BrowseConf: Confidence-Guided Test-Time Scaling for Web Agents [58.05949210993854]
本研究では,長期にわたる行動の後,言語化された信頼度スコアを用いて,検索エージェントが自身の信頼を伝達できるかどうかを検討する。
本研究では,信頼度スコアを用いて回答の質を判断し,信頼度レベルに達するまで再度試すテスト時間スケーリング(TTS)手法を提案する。
論文 参考訳(メタデータ) (2025-10-27T15:58:51Z) - Read Your Own Mind: Reasoning Helps Surface Self-Confidence Signals in LLMs [2.4892313127400962]
質問応答(QA)タスクにおける自己報告された言語信頼度を分析して,DeepSeek R1-32Bの不確実性の原因について検討した。
我々はDeepSeekに、最終回答の前に長い連鎖を強制することで、その分布を探求する予算を与えることで、その言語スコアの有効性を大幅に改善することを示します。
論文 参考訳(メタデータ) (2025-05-28T17:01:30Z) - On Verbalized Confidence Scores for LLMs [25.160810008907397]
大規模言語モデル(LLM)の不確実性定量化は、その応答に対するより人間的な信頼を確立することができる。
この研究は、出力トークンの一部として信頼度スコアで不確実性を言語化するようLLM自身に求めることに重点を置いている。
我々は、異なるデータセット、モデル、およびプロンプトメソッドに関して、言語化された信頼度スコアの信頼性を評価する。
論文 参考訳(メタデータ) (2024-12-19T11:10:36Z) - Confidence in the Reasoning of Large Language Models [0.0]
信頼度は、再考を促す際に、答えを維持するための永続性の観点から測定される。
信頼は、基礎となるトークンレベルの確率によってのみ部分的に説明される。
論文 参考訳(メタデータ) (2024-12-19T10:04:29Z) - Fact-Level Confidence Calibration and Self-Correction [64.40105513819272]
本稿では,事実レベルでの信頼度と妥当性の重み付けを校正するFact-Levelフレームワークを提案する。
また,信頼度の高い自己補正(textbfConFix$)も開発した。
論文 参考訳(メタデータ) (2024-11-20T14:15:18Z) - Learning to Route LLMs with Confidence Tokens [43.63392143501435]
大規模言語モデル(LLM)は、いくつかのタスクにおいて印象的なパフォーマンスを示し、現実のアプリケーションにますますデプロイされている。
高精細度設定では、LCMの出力がいつ信頼できないかを知ることが不可欠となる。
本研究では,LLMが回答の信頼度を確実に示すことができる範囲と,この信頼度の概念が下流の精度向上にどのように変換できるかを考察する。
論文 参考訳(メタデータ) (2024-10-17T07:28:18Z) - When to Trust LLMs: Aligning Confidence with Response Quality [49.371218210305656]
我々はconfidence-Quality-ORDer保存アライメントアプローチ(CONQORD)を提案する。
品質報酬と秩序保存アライメント報酬機能を統合する。
実験により,CONQORDは信頼性と応答精度のアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-26T09:42:46Z) - Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection [90.71323430635593]
本稿では, LLM生成解を超える包括的解答空間を考察した, 新たな自己検出パラダイムを提案する。
このパラダイムに基づいて、2段階のフレームワークを導入し、まずまずLLMに各候補の回答を反映し、正当化するように指示する。
このフレームワークは、優れた自己検出のための既存のアプローチとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-15T02:38:26Z) - An evaluation of word-level confidence estimation for end-to-end
automatic speech recognition [70.61280174637913]
エンドツーエンド自動音声認識(ASR)における信頼度推定の検討
4つのよく知られた音声データセットにおける信頼度手法の広範なベンチマークを提供する。
以上の結果から,ロジットを学習温度でスケーリングすることで,強いベースラインが得られることが示唆された。
論文 参考訳(メタデータ) (2021-01-14T09:51:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。