論文の概要: Think How to Think: Mitigating Overthinking with Autonomous Difficulty Cognition in Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2507.02663v2
- Date: Wed, 06 Aug 2025 14:55:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 15:43:09.096742
- Title: Think How to Think: Mitigating Overthinking with Autonomous Difficulty Cognition in Large Reasoning Models
- Title(参考訳): どのように考えるか:大規模推論モデルにおける自律的難易度認知による過度な思考の軽減
- Authors: Yongjiang Liu, Haoxi Li, Xiaosong Ma, Jie Zhang, Song Guo,
- Abstract要約: 近年のLarge Reasoning Models (LRMs) は複雑な推論タスクに優れるが、しばしば過度な思考に悩まされる。
本稿では,LRMの難易度認識と冗長性認知を段階的に刺激する,新しい2段階の微調整戦略であるThink-How-to-Think(TH2T)を提案する。
- 参考スコア(独自算出の注目度): 12.618562275265704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent Large Reasoning Models (LRMs) excel at complex reasoning tasks but often suffer from overthinking, generating overly long and redundant reasoning trajectories. To explore its essence, our empirical analysis reveals that LRMs are primarily limited to recognizing task properties (i.e., difficulty levels) like humans before solving the problem, leading to a one-size-fits-all reasoning process. Inspired by this, a pressing and natural question emerges: Can we explicitly bootstrap such ability to alleviate overthinking in LRMs? In this paper, we propose Think-How-to-Think (TH2T), a novel two-stage fine-tuning strategy that progressively inspires LRMs' difficulty cognition and redundancy cognition of LRMs. Specifically, we first inject difficulty hypnosis into output prefixes to guide the model toward adaptive reasoning depth, trained on a hybrid dataset mixing short and long reasoning paths. Then, we incorporate redundancy hypnosis, which supervises the intermediate reasoning steps to identify and eliminate unnecessary reasoning patterns. Experiments on 7B/14B/32B models demonstrate that TH2T significantly reduces inference costs by over 70% on easy tasks and 40% on hard tasks while maintaining performance stability. The resulting outputs exhibit clear signs of difficulty-aware capabilities and reduced redundancy (e.g., reflection and looping).
- Abstract(参考訳): 近年のLarge Reasoning Models (LRMs) は複雑な推論タスクに優れるが、過度に長い、冗長な推論軌道を発生させるという過度な思考に悩まされることが多い。
その本質を探求するため、我々の経験的分析により、LEMは、その問題を解決する前に人間のようなタスク特性(すなわち難易度)を認識することに主に制限されていることが判明した。
LRMの過度な考え方を緩和できるような機能を、明示的にブートストラップできるでしょうか?
本稿では,LRMの難易度認識と冗長性認知を段階的に刺激する新しい2段階微調整戦略であるThink-How-to-Think(TH2T)を提案する。
具体的には、まず、短い推論経路と長い推論経路を混合したハイブリッドデータセットで訓練された適応推論深さに向けてモデルを誘導するために、出力プレフィックスに困難催眠を注入する。
そして、不要な推論パターンを特定し、排除するために中間的推論ステップを監督する冗長性催眠を取り入れた。
7B/14B/32Bモデルに対する実験により、TH2Tは性能安定性を維持しながら、簡単なタスクでは70%以上、難しいタスクでは40%以上、推論コストを著しく削減することが示された。
その結果得られた出力は、難易度を認識し、冗長性(リフレクションやループ)を減少させる明確な兆候を示す。
関連論文リスト
- Towards Concise and Adaptive Thinking in Large Reasoning Models: A Survey [8.736170026262279]
OpenAI o1やDeepSeek R1のような大きな推論モデル(LRM)は、複雑な推論タスクにおいて印象的なパフォーマンスを示している。
これらのモデルもまた、不要な長さと冗長な推論チェーンを生成するという大きな課題に直面しています。
論文 参考訳(メタデータ) (2025-07-13T14:51:59Z) - Exploring and Exploiting the Inherent Efficiency within Large Reasoning Models for Self-Guided Efficiency Enhancement [101.77467538102924]
大きな推論モデル(LRM)は、効率を阻害し、推論コストを膨らませる過剰な考えを示す。
LRM効率を向上させるための2つの軽量手法を提案する。
まず,学習不要なアクティベーションステアリング技術であるEfficic Steeringを導入する。
第2に,タスクの正確さと簡潔さを動的にバランスする強化学習フレームワークである自己回帰効率RLを開発する。
論文 参考訳(メタデータ) (2025-06-18T17:18:12Z) - The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity [16.266145641151375]
大規模な推論モデルは、回答を提供する前に詳細な思考プロセスを生成する。
我々は, LRM がある種の複雑さを超えて完全に精度の低下に直面していることを示す。
また、より深く推論の痕跡を調べ、探索された解のパターンを研究する。
論文 参考訳(メタデータ) (2025-06-07T22:42:29Z) - OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation [33.008513399946914]
OThink-R1は論理的妥当性を保ちながら冗長な推論ステップを誘発する手法である。
OThink-R1は、数学的および質問応答タスクにわたる実験により、推論の冗長性を平均で約23%削減することを示した。
論文 参考訳(メタデータ) (2025-06-03T03:31:30Z) - Revisiting Overthinking in Long Chain-of-Thought from the Perspective of Self-Doubt [74.35891434097053]
RLLM(Reasoning Large Language Models)は、複雑なタスクにおいて素晴らしいパフォーマンスを示す。
彼らはしばしば過度に考え、正しい答えに達した後も不必要な推論ステップを実行します。
本稿では,自己疑念の観点から,過剰思考を定量的に分析する。
本稿では,入力問題に対するモデルの過度信頼度を低減するための,シンプルで効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2025-05-29T14:30:02Z) - CoThink: Token-Efficient Reasoning via Instruct Models Guiding Reasoning Models [56.40065909544213]
大規模言語モデル(LLM)は、テスト時間スケーリングとして知られる、テスト時間計算の増加の恩恵を受ける。
しかし、推論最適化モデルはしばしば単純な問題さえ考え過ぎ、過度に冗長な出力を生成し、トークン効率を低下させる。
1)強化学習は前方推論の情報密度を減少させ,(2)後方連鎖学習は冗長でしばしば不要な検証ステップを促進する。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - When Can Large Reasoning Models Save Thinking? Mechanistic Analysis of Behavioral Divergence in Reasoning [19.329523111916682]
大規模推論モデル(LRM)は複雑なタスクにおいてかなり高度な性能を持つが、非効率性を導入する傾向にある。
本研究では,Regress Learning (RL) 学習における内的メカニズムについて考察した。
論文 参考訳(メタデータ) (2025-05-21T08:55:35Z) - Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.08396797526657]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z) - Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities [101.77467538102924]
近年のLRM(Large Reasoning Models)の進歩は、特殊推論タスクにおいて顕著な性能を示している。
議論的推論能力の獲得は, LRMの基礎的能力を大幅に低下させることを示す。
適応推論(Zero-Thinking, Less-Thinking, Summary-Thinking)がこれらの欠点を効果的に軽減できることを示します。
論文 参考訳(メタデータ) (2025-03-23T08:18:51Z) - The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks [96.27754404942364]
大規模推論モデル(LRM)は、AI問題解決能力の突破口となるが、インタラクティブ環境での有効性は制限される可能性がある。
本稿では, LRMにおける過度な考察を紹介し, 分析する。
解析的麻痺,ローグ行動,早期解離の3つのパターンを観察した。
論文 参考訳(メタデータ) (2025-02-12T09:23:26Z) - Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs [86.79757571440082]
OpenAIのo1のような大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示している。
我々は、o1-like LLMがしばしば異なる理性的思考を切り替える、という現象を特定する。
本稿では,思考間の早期移行を回避できる思考切替ペナルティTIPを用いた復号戦略を提案する。
論文 参考訳(メタデータ) (2025-01-30T18:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。