論文の概要: Wired for Overconfidence: A Mechanistic Perspective on Inflated Verbalized Confidence in LLMs
- arxiv url: http://arxiv.org/abs/2604.01457v1
- Date: Wed, 01 Apr 2026 23:06:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.095314
- Title: Wired for Overconfidence: A Mechanistic Perspective on Inflated Verbalized Confidence in LLMs
- Title(参考訳): 過信を願う電線:LLMにおける膨らませた多言語信頼の力学的視点
- Authors: Tianyi Zhao, Yinhan He, Wendy Zheng, Yujie Zhang, Chen Chen,
- Abstract要約: 大規模言語モデルにおける言語過信は、識別可能な内部回路によって駆動されることを示す。
以上の結果から, LLMにおける言語過信は, 識別可能な内部回路によって駆動され, 目的の介入によって緩和される可能性が示唆された。
- 参考スコア(独自算出の注目度): 31.99173240336646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are often not just wrong, but \emph{confidently wrong}: when they produce factually incorrect answers, they tend to verbalize overly high confidence rather than signal uncertainty. Such verbalized overconfidence can mislead users and weaken confidence scores as a reliable uncertainty signal, yet its internal mechanisms remain poorly understood. We present a circuit-level mechanistic analysis of this inflated verbalized confidence in LLMs, organized around three axes: capturing verbalized confidence as a differentiable internal signal, identifying the circuits that causally inflate it, and leveraging these insights for targeted inference-time recalibration. Across two instruction-tuned LLMs on three datasets, we find that a compact set of MLP blocks and attention heads, concentrated in middle-to-late layers, consistently writes the confidence-inflation signal at the final token position. We further show that targeted inference-time interventions on these circuits substantially improve calibration. Together, our results suggest that verbalized overconfidence in LLMs is driven by identifiable internal circuits and can be mitigated through targeted intervention.
- Abstract(参考訳): 大規模な言語モデルは、しばしば単に間違っているわけではないが、'emph{confidently wrong}': 事実的に誤った答えを出すとき、信号の不確実性よりも、過度に高い信頼を口頭で表す傾向がある。
このような言語化された過信は、ユーザを誤解させ、信頼度スコアを信頼性のある不確実性信号として弱める可能性があるが、その内部メカニズムはいまだに理解されていない。
本稿では,LLMにおけるこの膨らませた言語的信頼度を回路レベルで解析し,言語的信頼度を微分可能な内部信号として捉え,因果的インフレーションを行う回路を同定し,これらの知見を目的の推論時間再分類に活用する。
3つのデータセット上の2つの命令調整 LLM にまたがって、MLPブロックとアテンションヘッドのコンパクトなセットが中間層から後期層に集中し、最終的なトークン位置で常に信頼インフレーション信号を記述する。
さらに,これらの回路に対する目標推定時間介入はキャリブレーションを大幅に改善することを示した。
以上の結果から, LLMにおける言語過信は, 識別可能な内部回路によって駆動され, 目的の介入によって緩和される可能性が示唆された。
関連論文リスト
- Closing the Confidence-Faithfulness Gap in Large Language Models [3.122242683664973]
大規模言語モデルは、実際の精度から大きく切り離された信頼スコアを言語化する。
本稿では,言語的信頼度に関する機械論的解釈可能性分析について述べる。
本稿では,モデルの内部精度推定値を読み取る2段階適応型ステアリングパイプラインを導入する。
論文 参考訳(メタデータ) (2026-03-26T05:42:04Z) - Thinking by Subtraction: Confidence-Driven Contrastive Decoding for LLM Reasoning [58.331709210563616]
サブトラクションによる思考は、信頼主導のコントラスト的デコーディングアプローチである。
低信頼トークンの小さなサブセットは、誤りの推論と不要な出力拡大に不当に寄与する。
信頼駆動型コントラストデコーディング(Confidence-Driven Contrastive Decoding)は,デコーディング中の低信頼トークンを検出し,それらの位置で介入する。
論文 参考訳(メタデータ) (2026-02-20T14:13:22Z) - Illusions of Confidence? Diagnosing LLM Truthfulness via Neighborhood Consistency [78.91846841708586]
完全な自己整合性で答えられた事実でさえ、軽微な文脈干渉の下で急速に崩壊することを示します。
本研究では,概念的近傍における応答コヒーレンスを評価する信念の構造尺度であるNighbor-Consistency Belief(NCB)を提案する。
また、文脈不変の信念構造を最適化し、長い知識の脆さを約30%低減する構造意識訓練(SAT)を提案する。
論文 参考訳(メタデータ) (2026-01-09T16:23:21Z) - ConfTuner: Training Large Language Models to Express Their Confidence Verbally [58.63318088243125]
大規模言語モデル(LLM)は、科学、法律、医療といった高度な領域にますます展開されている。
LLMは、しばしば「過信」(overconfidence)として知られる、高い信頼で誤った答えを生成するために観察される。
論文 参考訳(メタデータ) (2025-08-26T09:25:32Z) - MetaFaith: Faithful Natural Language Uncertainty Expression in LLMs [66.14178164421794]
メタファイト(MetaFaith)は、ヒトのメタ認知に触発された新規なプロンプトベースのキャリブレーション手法である。
MetaFaithは多種多様なモデルやタスク領域における忠実なキャリブレーションを強力に改善し、忠実度を最大61%向上させることができることを示す。
論文 参考訳(メタデータ) (2025-05-30T17:54:08Z) - SteerConf: Steering LLMs for Confidence Elicitation [11.872504642312705]
大規模言語モデル(LLM)は、様々な領域で素晴らしいパフォーマンスを示すが、しばしば過剰な自信に悩まされる。
本稿では,LCMの信頼性スコアを体系的に評価し,キャリブレーションと信頼性を向上させる新しいフレームワークであるSteerConfを提案する。
論文 参考訳(メタデータ) (2025-03-04T18:40:49Z) - Learning to Route LLMs with Confidence Tokens [43.63392143501435]
大規模言語モデル(LLM)は、いくつかのタスクにおいて印象的なパフォーマンスを示し、現実のアプリケーションにますますデプロイされている。
高精細度設定では、LCMの出力がいつ信頼できないかを知ることが不可欠となる。
本研究では,LLMが回答の信頼度を確実に示すことができる範囲と,この信頼度の概念が下流の精度向上にどのように変換できるかを考察する。
論文 参考訳(メタデータ) (2024-10-17T07:28:18Z) - Reconfidencing LLMs from the Grouping Loss Perspective [56.801251926946485]
大規模言語モデル(LLM)は、自信のある音調で幻覚的な答えを生じさせる可能性がある。
近年の研究では、不確実性制御はキャリブレーションを超えて行わなければならないことが示されている。
そこで我々は,MistralとLLaMAの回答に対する信頼度を評価するために,知識ベースから導出した新しい評価データセットを構築した。
論文 参考訳(メタデータ) (2024-02-07T15:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。