論文の概要: Let LLMs Break Free from Overthinking via Self-Braking Tuning
- arxiv url: http://arxiv.org/abs/2505.14604v2
- Date: Wed, 21 May 2025 16:45:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 13:19:52.371145
- Title: Let LLMs Break Free from Overthinking via Self-Braking Tuning
- Title(参考訳): LLMは、セルフブレーキのチューニングによって、再考から解放される
- Authors: Haoran Zhao, Yuchen Yan, Yongliang Shen, Haolei Xu, Wenqi Zhang, Kaitao Song, Jian Shao, Weiming Lu, Jun Xiao, Yueting Zhuang,
- Abstract要約: 大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
- 参考スコア(独自算出の注目度): 60.08396797526657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models (LRMs), such as OpenAI o1 and DeepSeek-R1, have significantly enhanced their reasoning capabilities by generating longer chains of thought, demonstrating outstanding performance across a variety of tasks. However, this performance gain comes at the cost of a substantial increase in redundant reasoning during the generation process, leading to high computational overhead and exacerbating the issue of overthinking. Although numerous existing approaches aim to address the problem of overthinking, they often rely on external interventions. In this paper, we propose a novel framework, Self-Braking Tuning (SBT), which tackles overthinking from the perspective of allowing the model to regulate its own reasoning process, thus eliminating the reliance on external control mechanisms. We construct a set of overthinking identification metrics based on standard answers and design a systematic method to detect redundant reasoning. This method accurately identifies unnecessary steps within the reasoning trajectory and generates training signals for learning self-regulation behaviors. Building on this foundation, we develop a complete strategy for constructing data with adaptive reasoning lengths and introduce an innovative braking prompt mechanism that enables the model to naturally learn when to terminate reasoning at an appropriate point. Experiments across mathematical benchmarks (AIME, AMC, MATH500, GSM8K) demonstrate that our method reduces token consumption by up to 60% while maintaining comparable accuracy to unconstrained models.
- Abstract(参考訳): OpenAI o1やDeepSeek-R1のような大きな推論モデル(LRM)は、長い思考の連鎖を生成し、様々なタスクで優れたパフォーマンスを示すことによって、推論能力を著しく向上させた。
しかし、この性能向上は、生成プロセス中に冗長な推論が大幅に増加し、高い計算オーバーヘッドが発生し、過度に考える問題を悪化させる。
多くの既存のアプローチは、過度に考える問題に対処することを目的としているが、それらはしばしば外部の介入に依存している。
本稿では、モデルが独自の推論過程を制御できるようにし、外部制御機構への依存をなくすという観点から、過度に検討する新しいフレームワーク、セルフブレーキチューニング(SBT)を提案する。
本研究は,標準回答に基づく同定指標の集合を構築し,冗長な推論を検出する体系的手法を設計する。
本手法は、推論軌道内の不要なステップを正確に識別し、自己規制行動を学ぶための訓練信号を生成する。
この基盤を基盤として,適応的推論長でデータを構築するための完全な戦略を開発し,適切なタイミングで推論を終了するタイミングでモデルが自然に学習できる革新的なブレーキプロンプト機構を導入する。
数式ベンチマーク (AIME, AMC, MATH500, GSM8K) を用いた実験により, 非拘束モデルに匹敵する精度を維持しつつ, トークン消費量を最大60%削減できることを示した。
関連論文リスト
- From "Aha Moments" to Controllable Thinking: Toward Meta-Cognitive Reasoning in Large Reasoning Models via Decoupled Reasoning and Control [11.321315058502215]
大規模推論モデル(LRM)は、ステップバイステップの推論、リフレクション、バックトラッキングなどの認知行動を自発的に示すことで、複雑な推論の潜在能力を示した。
しかし、そのような創発的行動は規制されず、制御されていないままであり、しばしば過度に考え直され、モデルが信頼できる結論に達した後も冗長な推論内容を生成し続ける。
現在のモデルは、いつ継続するか、バックトラックするか、終了するかを決定するために、彼らの推論プロセスを監視し、適応的に管理できない。
我々はメタ認知推論フレームワーク(MERA)を提案する。
論文 参考訳(メタデータ) (2025-08-06T13:59:17Z) - Thinking with Nothinking Calibration: A New In-Context Learning Paradigm in Reasoning Large Language Models [23.642200042199484]
我々は、大規模言語モデル(RLLM)を推論するための文脈内学習(ICL)パラダイムとして、思考を伴う思考(JointThinking)を提案する。
提案手法は,思考モードと思考モードの2つの回答を並列に生成する。
JointThinkingは、数発のチェーン・オブ・シークレット・ロバスト性(CoT)と、回答の改善による多数決を著しく上回っている。
論文 参考訳(メタデータ) (2025-08-05T12:09:55Z) - Lost at the Beginning of Reasoning [82.18834329384514]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
モデル自己補正能力を体系的に評価するために、意図的に欠陥のある第1の推論ステップで構築された新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - Does Thinking More always Help? Understanding Test-Time Scaling in Reasoning Models [103.03315678501546]
Wait"や"Let me rethink"といったプロンプトを使って思考トレースを拡張することで、パフォーマンスが向上します。
テスト時にもっと考えることは、本当により良い推論につながるのでしょうか?
過度に考える”という理由から,新たな思考による初期パフォーマンス改善の一貫したパターンと,それに続く低下を示す。
論文 参考訳(メタデータ) (2025-06-04T17:55:09Z) - OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation [33.008513399946914]
OThink-R1は論理的妥当性を保ちながら冗長な推論ステップを誘発する手法である。
OThink-R1は、数学的および質問応答タスクにわたる実験により、推論の冗長性を平均で約23%削減することを示した。
論文 参考訳(メタデータ) (2025-06-03T03:31:30Z) - CoThink: Token-Efficient Reasoning via Instruct Models Guiding Reasoning Models [56.40065909544213]
大規模言語モデル(LLM)は、テスト時間スケーリングとして知られる、テスト時間計算の増加の恩恵を受ける。
しかし、推論最適化モデルはしばしば単純な問題さえ考え過ぎ、過度に冗長な出力を生成し、トークン効率を低下させる。
1)強化学習は前方推論の情報密度を減少させ,(2)後方連鎖学習は冗長でしばしば不要な検証ステップを促進する。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - Learning When to Think: Shaping Adaptive Reasoning in R1-Style Models via Multi-Stage RL [19.731871225975926]
大規模推論モデル(LRM)は、最終的な答えを生成する前に、明示的でステップバイステップの推論シーケンスを生成するのに熟練している。
この過度に考える問題に対処するため、適応的思考能力を備えたLEMの装備方法について検討する。
推論ポリシーを段階的に最適化する多段階強化学習フレームワークであるAutoThinkを提案する。
論文 参考訳(メタデータ) (2025-05-16T04:01:57Z) - Scalable Chain of Thoughts via Elastic Reasoning [61.75753924952059]
Elastic Reasoningは、スケーラブルな思考の連鎖のための新しいフレームワークである。
推論は、独立して割り当てられた予算で、思考と解決の2つのフェーズに分けられる。
制約のない設定であっても、より簡潔で効率的な推論を生成する。
論文 参考訳(メタデータ) (2025-05-08T15:01:06Z) - Reasoning Models Can Be Effective Without Thinking [45.411955744222524]
NoThinkingと呼ばれる単純なプロンプトによって思考プロセスをバイパスすることは驚くほど効果的である。
提案手法は,Thinkingと同等のレイテンシで,より長いレイテンシ(最大9倍)でThinkingに匹敵する,一連のベースライン性能を向上する。
論文 参考訳(メタデータ) (2025-04-14T04:08:16Z) - Effectively Controlling Reasoning Models through Thinking Intervention [41.38412282063417]
Reasoning-enhanced large language model (LLM) は、最終回答を生成する前に、中間推論ステップを明示的に生成する。
本稿では,LLMの内部推論プロセスを明示的に導くための新しいパラダイムであるThinking Interventionを提案する。
論文 参考訳(メタデータ) (2025-03-31T17:50:13Z) - The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks [96.27754404942364]
大規模推論モデル(LRM)は、AI問題解決能力の突破口となるが、インタラクティブ環境での有効性は制限される可能性がある。
本稿では, LRMにおける過度な考察を紹介し, 分析する。
解析的麻痺,ローグ行動,早期解離の3つのパターンを観察した。
論文 参考訳(メタデータ) (2025-02-12T09:23:26Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。