論文の概要: How Overconfidence in Initial Choices and Underconfidence Under Criticism Modulate Change of Mind in Large Language Models
- arxiv url: http://arxiv.org/abs/2507.03120v1
- Date: Thu, 03 Jul 2025 18:57:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.585685
- Title: How Overconfidence in Initial Choices and Underconfidence Under Criticism Modulate Change of Mind in Large Language Models
- Title(参考訳): 批判下における初期選択における過信と過信が大規模言語モデルにおける心の変化をどう変えるか
- Authors: Dharshan Kumaran, Stephen M Fleming, Larisa Markeeva, Joe Heyward, Andrea Banino, Mrinal Mathur, Razvan Pascanu, Simon Osindero, Benedetto de Martino, Petar Velickovic, Viorica Patraucean,
- Abstract要約: 大きな言語モデル(LLM)は、非常に矛盾する振る舞いを示す。
LLMは、質問されたときに過度に疑念を抱きがちである一方で、最初の回答において、頑強に過度に自信を抱くように見える。
LLMは選択支援バイアスを顕著に示し、回答に対する信頼度を補強し、向上させることを示す。
- 参考スコア(独自算出の注目度): 28.62988505317048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) exhibit strikingly conflicting behaviors: they can appear steadfastly overconfident in their initial answers whilst at the same time being prone to excessive doubt when challenged. To investigate this apparent paradox, we developed a novel experimental paradigm, exploiting the unique ability to obtain confidence estimates from LLMs without creating memory of their initial judgments -- something impossible in human participants. We show that LLMs -- Gemma 3, GPT4o and o1-preview -- exhibit a pronounced choice-supportive bias that reinforces and boosts their estimate of confidence in their answer, resulting in a marked resistance to change their mind. We further demonstrate that LLMs markedly overweight inconsistent compared to consistent advice, in a fashion that deviates qualitatively from normative Bayesian updating. Finally, we demonstrate that these two mechanisms -- a drive to maintain consistency with prior commitments and hypersensitivity to contradictory feedback -- parsimoniously capture LLM behavior in a different domain. Together, these findings furnish a mechanistic account of LLM confidence that explains both their stubbornness and excessive sensitivity to criticism.
- Abstract(参考訳): 大きな言語モデル(LLM)は、非常に矛盾する振る舞いを示します。
このパラドックスを解明するために,我々は,LLMから信頼度を推定できる独特な能力を生かした新しい実験パラダイムを開発した。初回判断の記憶を生成せずに,人間には不可能なものである。我々は,LLMs -- Gemma 3, GPT4o, o1-preview -- が,その答えに対する信頼度を補強し,向上する顕著な選択支持バイアスを示し,その結果,彼らの心を変えるための顕著な抵抗性を示すことを示した。
さらに、標準ベイズ更新から定性的に逸脱する方法で、LCMが一貫したアドバイスに比べて明らかに過度に矛盾していることを実証する。
最後に、これらの2つのメカニズム -- 事前のコミットメントとの整合性を維持し、矛盾するフィードバックに対する過敏性 -- が、異なるドメインにおけるLCMの振る舞いを同義に捉えていることを実証する。
これらの知見は、彼らの頑丈さと批判に対する過度な敏感さの両方を説明する、LSMの信頼性に関する機械学的な説明を与えている。
関連論文リスト
- Confidence in the Reasoning of Large Language Models [0.0]
信頼度は、再考を促す際に、答えを維持するための永続性の観点から測定される。
信頼は、基礎となるトークンレベルの確率によってのみ部分的に説明される。
論文 参考訳(メタデータ) (2024-12-19T10:04:29Z) - Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection [90.71323430635593]
本稿では, LLM生成解を超える包括的解答空間を考察した, 新たな自己検出パラダイムを提案する。
このパラダイムに基づいて、2段階のフレームワークを導入し、まずまずLLMに各候補の回答を反映し、正当化するように指示する。
このフレームワークは、優れた自己検出のための既存のアプローチとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-15T02:38:26Z) - Fact-and-Reflection (FaR) Improves Confidence Calibration of Large Language Models [84.94220787791389]
ファクト・アンド・リフレクション(FaR)プロンプトを提案し,LLMキャリブレーションを2ステップで改善する。
実験の結果、FaRはキャリブレーションが大幅に向上し、期待される誤差を23.5%下げた。
FaRは、信頼性の低いシナリオにおいて、言語的に関心を表現できる能力さえも持っています。
論文 参考訳(メタデータ) (2024-02-27T01:37:23Z) - Reconfidencing LLMs from the Grouping Loss Perspective [56.801251926946485]
大規模言語モデル(LLM)は、自信のある音調で幻覚的な答えを生じさせる可能性がある。
近年の研究では、不確実性制御はキャリブレーションを超えて行わなければならないことが示されている。
そこで我々は,MistralとLLaMAの回答に対する信頼度を評価するために,知識ベースから導出した新しい評価データセットを構築した。
論文 参考訳(メタデータ) (2024-02-07T15:40:22Z) - Self-Contrast: Better Reflection Through Inconsistent Solving Perspectives [45.87069217634753]
研究によると、外部からのフィードバックがなければ、Large Language Modelの本質的なリフレクションは不安定である。
我々の調査によると、重要なボトルネックは自己評価されたフィードバックの品質である。
要求に合わせて様々な解決の観点を適応的に探求し、相違点を対比し、これらの相違点を再検討し、相違点を排除するために使用できるチェックリストにまとめます。
論文 参考訳(メタデータ) (2024-01-04T00:32:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。