論文の概要: Explore Briefly, Then Decide: Mitigating LLM Overthinking via Cumulative Entropy Regulation
- arxiv url: http://arxiv.org/abs/2510.02249v1
- Date: Thu, 02 Oct 2025 17:36:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.256604
- Title: Explore Briefly, Then Decide: Mitigating LLM Overthinking via Cumulative Entropy Regulation
- Title(参考訳): 計算エントロピー規制によるLLMの過小評価
- Authors: Tianyi Jiang, Yi Bin, Yujuan Ding, Kainian Zhu, Fei Ma, Jingkuan Song, Heng Tao Shen,
- Abstract要約: 大規模言語モデル(LLM)は、長いチェーン・オブ・ソート(CoT)推論を用いた複雑な問題に対する顕著な推論能力を示した。
しばしば過度の思考に悩まされ、単純な問題に対して必要以上に長い推論ステップが生じる。
本稿では, 推論過程を通じて探索範囲を計測する新しい計量量であるToken Entropy Cumulative Average(TECA)を紹介する。
- 参考スコア(独自算出の注目度): 82.62935304152239
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable reasoning abilities on complex problems using long Chain-of-Thought (CoT) reasoning. However, they often suffer from overthinking, meaning generating unnecessarily lengthy reasoning steps for simpler problems. This issue may degrade the efficiency of the models and make them difficult to adapt the reasoning depth to the complexity of problems. To address this, we introduce a novel metric Token Entropy Cumulative Average (TECA), which measures the extent of exploration throughout the reasoning process. We further propose a novel reasoning paradigm -- Explore Briefly, Then Decide -- with an associated Cumulative Entropy Regulation (CER) mechanism. This paradigm leverages TECA to help the model dynamically determine the optimal point to conclude its thought process and provide a final answer, thus achieving efficient reasoning. Experimental results across diverse mathematical benchmarks show that our approach substantially mitigates overthinking without sacrificing problem-solving ability. With our thinking paradigm, the average response length decreases by up to 71% on simpler datasets, demonstrating the effectiveness of our method in creating a more efficient and adaptive reasoning process.
- Abstract(参考訳): 大規模言語モデル(LLM)は、長いチェーン・オブ・ソート(CoT)推論を用いた複雑な問題に対する顕著な推論能力を示した。
しかし、しばしば過度の思考に悩まされ、単純な問題に対して必要以上に長い推論ステップが生じる。
この問題はモデルの効率を低下させ、問題の複雑さに推論の深さを適応させることが困難になる可能性がある。
そこで,本稿では,推論過程を通じて探索範囲を計測する,新しい計量指標であるToken Entropy Cumulative Average(TECA)を紹介する。
さらに、関連する累積エントロピーレギュレーション(CER)機構を備えた、新しい推論パラダイム -- 簡潔な探索、そして決定 -- を提案する。
このパラダイムはTECAを活用して、モデルが思考過程を終了するための最適点を動的に決定し、最終的な答えを与え、効率的な推論を実現するのに役立つ。
種々の数学ベンチマークによる実験結果から,本手法は問題解決能力を犠牲にすることなく,過大な思考を著しく軽減することが示された。
我々の思考パラダイムでは、より単純なデータセットで平均応答長が最大71%減少し、より効率的で適応的な推論プロセスを作成する上での手法の有効性が実証された。
関連論文リスト
- Think Smart, Not Hard: Difficulty Adaptive Reasoning for Large Audio Language Models [28.578488403845146]
大規模音声言語モデル(LALM)は、顕著な推論能力を示している。
LALMの難易度適応推論法を提案する。
論文 参考訳(メタデータ) (2025-09-26T06:49:14Z) - Towards Concise and Adaptive Thinking in Large Reasoning Models: A Survey [8.736170026262279]
OpenAI o1やDeepSeek R1のような大きな推論モデル(LRM)は、複雑な推論タスクにおいて印象的なパフォーマンスを示している。
これらのモデルもまた、不要な長さと冗長な推論チェーンを生成するという大きな課題に直面しています。
論文 参考訳(メタデータ) (2025-07-13T14:51:59Z) - Revisiting Overthinking in Long Chain-of-Thought from the Perspective of Self-Doubt [74.35891434097053]
RLLM(Reasoning Large Language Models)は、複雑なタスクにおいて素晴らしいパフォーマンスを示す。
彼らはしばしば過度に考え、正しい答えに達した後も不必要な推論ステップを実行します。
本稿では,自己疑念の観点から,過剰思考を定量的に分析する。
本稿では,入力問題に対するモデルの過度信頼度を低減するための,シンプルで効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2025-05-29T14:30:02Z) - Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.08396797526657]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z) - Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs [86.79757571440082]
OpenAIのo1のような大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示している。
我々は、o1-like LLMがしばしば異なる理性的思考を切り替える、という現象を特定する。
本稿では,思考間の早期移行を回避できる思考切替ペナルティTIPを用いた復号戦略を提案する。
論文 参考訳(メタデータ) (2025-01-30T18:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。