論文の概要: Beware of Reasoning Overconfidence: Pitfalls in the Reasoning Process for Multi-solution Tasks
- arxiv url: http://arxiv.org/abs/2512.01725v1
- Date: Mon, 01 Dec 2025 14:35:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.896788
- Title: Beware of Reasoning Overconfidence: Pitfalls in the Reasoning Process for Multi-solution Tasks
- Title(参考訳): 自信過剰の推論に留意する:マルチソリューションタスクにおける推論プロセスにおける落とし穴
- Authors: Jiannan Guan, Qiguang Chen, Libo Qin, Dengyun Peng, Jinhao Liu, Liangyu Huo, Jian Xie, Wanxiang Che,
- Abstract要約: 大きな言語モデル(LLM)は、単一の正しい答えを必要とするタスクの推論において優れているが、マルチソリューションタスクでは不十分である。
我々はこの制限を、不完全解集合における不完全確実性を表現する傾向という、不確実な過信(textbfreasoning overconfidence)に起因している。
この仮説は, 思考経路の狭いセットに早急に収束すると, 過信が生じることを示唆するものである。
- 参考スコア(独自算出の注目度): 54.31998314008198
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) excel in reasoning tasks requiring a single correct answer, but they perform poorly in multi-solution tasks that require generating comprehensive and diverse answers. We attribute this limitation to \textbf{reasoning overconfidence}: a tendency to express undue certainty in an incomplete solution set. To examine the effect, we introduce \textit{MuSoBench}, a benchmark of multi-solution problems. Experiments show that the conventional short chain-of-thought (Short-CoT) prompting paradigm exhibits pronounced overconfidence, whereas the emerging long chain-of-thought (Long-CoT) approach mitigates it through iterative exploration and self-reflection. We further characterise observable behaviours and influential factors. To probe the underlying cause, we propose the \textbf{cognitive-rigidity hypothesis}, which posits that overconfidence arises when the reasoning process prematurely converges on a narrow set of thought paths. An attention-entropy analysis offers preliminary support for this view. These findings provide tools for assessing the completeness of LLM reasoning and highlight the need to move evaluation beyond single-answer accuracy toward comprehensive exploration.
- Abstract(参考訳): 大きな言語モデル(LLM)は、単一の正しい答えを必要とするタスクの推論において優れているが、総合的で多様な回答を生成する必要のあるマルチソリューションタスクでは不十分である。
我々はこの制限を、不完全解集合における不完全確実性を表現する傾向である \textbf{reasoning overconfidence} とみなす。
この効果を調べるために,マルチソリューション問題のベンチマークである \textit{MuSoBench} を導入する。
実験により、従来のショート・オブ・シークレット(ショート・オブ・シークレット)は自信過剰を示すのに対し、新たなロング・オブ・シークレット(ロング・コート)アプローチは反復的な探索と自己回帰を通じてそれを緩和することを示した。
さらに、観測可能な行動と影響要因を特徴づける。
この仮説は、推論過程が狭い思考経路の集合に早急に収束した場合に過剰な自信が生じることを示唆するものである。
注意エントロピー分析は、この見解に対する予備的なサポートを提供する。
これらの結果は, LLM推論の完全性を評価するためのツールを提供し, 総合的な探索に向けて, 単一回答精度を超えて評価を移動させる必要性を強調している。
関連論文リスト
- FaithCoT-Bench: Benchmarking Instance-Level Faithfulness of Chain-of-Thought Reasoning [62.452350134196934]
FaithCoT-Benchは、インスタンスレベルのCoT不信検出のための統一ベンチマークである。
我々の枠組みは差別的な決定問題として不誠実検出を定式化している。
FaithCoT-Bench は LLM のより解釈可能で信頼性の高い推論に向けた将来の研究の基盤となる。
論文 参考訳(メタデータ) (2025-10-05T05:16:54Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - Revisiting Overthinking in Long Chain-of-Thought from the Perspective of Self-Doubt [74.35891434097053]
RLLM(Reasoning Large Language Models)は、複雑なタスクにおいて素晴らしいパフォーマンスを示す。
彼らはしばしば過度に考え、正しい答えに達した後も不必要な推論ステップを実行します。
本稿では,自己疑念の観点から,過剰思考を定量的に分析する。
本稿では,入力問題に対するモデルの過度信頼度を低減するための,シンプルで効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2025-05-29T14:30:02Z) - Read Your Own Mind: Reasoning Helps Surface Self-Confidence Signals in LLMs [2.4892313127400962]
質問応答(QA)タスクにおける自己報告された言語信頼度を分析して,DeepSeek R1-32Bの不確実性の原因について検討した。
我々はDeepSeekに、最終回答の前に長い連鎖を強制することで、その分布を探求する予算を与えることで、その言語スコアの有効性を大幅に改善することを示します。
論文 参考訳(メタデータ) (2025-05-28T17:01:30Z) - Preemptive Answer "Attacks" on Chain-of-Thought Reasoning [7.233752893356647]
大きな言語モデル(LLM)は、Chain-of-Thoughtプロンプトと組み合わせることで、印象的な推論機能を示す。
本稿では, LLMが推論に係わる前に解答を得る, プリエンプティブな解答という新しいシナリオを紹介する。
実験により、プリエンプティブな回答は、さまざまなCoTメソッドと幅広いデータセットにわたるモデルの推論能力を著しく損なうことが明らかになった。
論文 参考訳(メタデータ) (2024-05-31T15:15:04Z) - Boosting of Thoughts: Trial-and-Error Problem Solving with Large Language Models [43.09706839884221]
Boosting of Thoughts (BoT)は、大規模言語モデルによる問題解決のための自動プロンプトフレームワークである。
我々は,BoTが他の先進的なプロンプト手法よりも高い,あるいは同等の問題解決率を達成することを示す。
論文 参考訳(メタデータ) (2024-02-17T00:13:36Z) - Towards CausalGPT: A Multi-Agent Approach for Faithful Knowledge Reasoning via Promoting Causal Consistency in LLMs [55.66353783572259]
Causal-Consistency Chain-of-Thoughtは、基礎モデルの忠実さと因果性を強化するために、マルチエージェントコラボレーションを活用する。
我々のフレームワークは、広範囲かつ包括的な評価を通じて、最先端の手法よりも大きな優位性を示す。
論文 参考訳(メタデータ) (2023-08-23T04:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。