論文の概要: Revisiting Overthinking in Long Chain-of-Thought from the Perspective of Self-Doubt
- arxiv url: http://arxiv.org/abs/2505.23480v1
- Date: Thu, 29 May 2025 14:30:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.901073
- Title: Revisiting Overthinking in Long Chain-of-Thought from the Perspective of Self-Doubt
- Title(参考訳): ロングチェイン・オブ・サードにおける再考 : セルフ・ダウトの視点から
- Authors: Keqin Peng, Liang Ding, Yuanxin Ouyang, Meng Fang, Dacheng Tao,
- Abstract要約: RLLM(Reasoning Large Language Models)は、複雑なタスクにおいて素晴らしいパフォーマンスを示す。
彼らはしばしば過度に考え、正しい答えに達した後も不必要な推論ステップを実行します。
本稿では,自己疑念の観点から,過剰思考を定量的に分析する。
本稿では,入力問題に対するモデルの過度信頼度を低減するための,シンプルで効果的なプロンプト手法を提案する。
- 参考スコア(独自算出の注目度): 74.35891434097053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning Large Language Models (RLLMs) have demonstrated impressive performance on complex tasks, largely due to the adoption of Long Chain-of-Thought (Long CoT) reasoning. However, they often exhibit overthinking -- performing unnecessary reasoning steps even after arriving at the correct answer. Prior work has largely focused on qualitative analyses of overthinking through sample-based observations of long CoTs. In contrast, we present a quantitative analysis of overthinking from the perspective of self-doubt, characterized by excessive token usage devoted to re-verifying already-correct answer. We find that self-doubt significantly contributes to overthinking. In response, we introduce a simple and effective prompting method to reduce the model's over-reliance on input questions, thereby avoiding self-doubt. Specifically, we first prompt the model to question the validity of the input question, and then respond concisely based on the outcome of that evaluation. Experiments on three mathematical reasoning tasks and four datasets with missing premises demonstrate that our method substantially reduces answer length and yields significant improvements across nearly all datasets upon 4 widely-used RLLMs. Further analysis demonstrates that our method effectively minimizes the number of reasoning steps and reduces self-doubt.
- Abstract(参考訳): RLLM(Reasoning Large Language Models)は、Long Chain-of-Thought(Long CoT)推論の採用による、複雑なタスクにおける印象的なパフォーマンスを実証している。
しかし、彼らはしばしば過度に考え、正しい答えに達した後も不必要な推論ステップを実行します。
以前の研究は、長いCoTのサンプルベースの観察を通して過剰思考の質的な分析に重点を置いてきた。
これとは対照的に,すでに正しい答えを再検証するための過剰なトークンの使用を特徴とする自己疑念の観点から,過剰思考を定量的に分析する。
自己疑念は過度な考えに大きく貢献する。
そこで本研究では,入力質問に対するモデルの過度信頼度を低減し,自己疑念を避けるための,シンプルで効果的なプロンプト手法を提案する。
具体的には、まず、入力された質問の妥当性を問うようモデルに促し、その評価結果に基づいて簡潔に応答する。
3つの数学的推論タスクと4つのデータセットを前提とした実験により、我々の手法は回答の長さを大幅に削減し、4つの広く使われているRLLMに対してほぼ全てのデータセットに大幅な改善をもたらすことを示した。
さらに分析した結果,提案手法は推論ステップの数を効果的に最小化し,自己疑似性を低下させることがわかった。
関連論文リスト
- Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.08396797526657]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z) - Beyond the Last Answer: Your Reasoning Trace Uncovers More than You Think [51.0691253204425]
我々は2つの質問に答えるために中間的推論ステップを解析する: 最終的な答えはモデルの最適結論を確実に表すか?
我々のアプローチは、推論トレースを言語的手がかりに基づくシーケンシャルなサブソートに分割することである。
これらの解答を最も頻繁な解(モード)を選択して集約すると、元の完全トレースから得られる解のみに依存するよりも、はるかに高い精度が得られることが判明した。
論文 参考訳(メタデータ) (2025-04-29T12:39:07Z) - Missing Premise exacerbates Overthinking: Are Reasoning Models losing Critical Thinking Skill? [27.374491920521745]
不十分な前提条件 (MiP) を持つ不適切な質問に対して, LLM の応答長が劇的に増加することが判明した。
この新たなシナリオは、MiP-Overthinking(英語版)と呼ばれる一般的な過剰思考問題をかなり悪化させます。
驚いたことに、LSMは特に推論の訓練を受けていないため、MiPのシナリオではより優れたパフォーマンスを示し、不適切なクエリを素早く識別するより短いレスポンスを生み出した。
論文 参考訳(メタデータ) (2025-04-09T01:25:27Z) - Think When You Need: Self-Adaptive Chain-of-Thought Learning [20.22448368125018]
思考の連鎖(CoT)推論は言語モデルの性能を高めるが、単純な問題では非効率な「過剰思考」につながることが多い。
推論長を直接罰する既存の手法は、様々な問題の複雑さを考慮に入れない。
提案手法は,解の正しさと簡潔さを両立させる理論的な仮定によって導かれる,長さと品質の比較を通じて報酬を構成する。
論文 参考訳(メタデータ) (2025-04-04T07:34:01Z) - Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs [86.79757571440082]
OpenAIのo1のような大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示している。
我々は、o1-like LLMがしばしば異なる理性的思考を切り替える、という現象を特定する。
本稿では,思考間の早期移行を回避できる思考切替ペナルティTIPを用いた復号戦略を提案する。
論文 参考訳(メタデータ) (2025-01-30T18:58:18Z) - Self-Contradictory Reasoning Evaluation and Detection [31.452161594896978]
本稿では,自己矛盾推論(Self-Contra)について考察する。
LLMは文脈情報理解や常識を含むタスクの推論において矛盾することが多い。
GPT-4は52.2%のF1スコアで自己コントラを検出できる。
論文 参考訳(メタデータ) (2023-11-16T06:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。