論文の概要: ThinkBrake: Mitigating Overthinking in Tool Reasoning
- arxiv url: http://arxiv.org/abs/2510.00546v1
- Date: Wed, 01 Oct 2025 06:04:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.405228
- Title: ThinkBrake: Mitigating Overthinking in Tool Reasoning
- Title(参考訳): ThinkBrake: ツール推論の過小評価
- Authors: Minjae Oh, Sangjun Song, Seungkyu Lee, Sungmin Jo, Yohan Jo,
- Abstract要約: 小さな推論モデル(SRM)は、しばしばツールの使用時に過大評価される。
文境界で/think>を注入/注入するオラクルロールアウトを通じて過剰思考を診断する。
ThinkBrakeは/think>と文境界における現在のトップトークンの間のログ確率のマージンを監視します。
- 参考スコア(独自算出の注目度): 10.90837973132995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Small reasoning models (SRMs) often overthink during tool use: they reach a correct tool-argument configuration, then continue reasoning and overwrite it with an incorrect final call. We diagnose overthinking via oracle rollouts that inject </think> at sentence boundaries. On the Berkeley Function Calling Leaderboard (BFCL), this oracle termination lifts average accuracy from 85.8\% to 94.2\% while reducing tokens by 80-94\%, revealing substantial recoverable headroom and potential redundant reasoning. While prior work on concise reasoning has largely targeted mathematics, tool reasoning remains underexplored. We adapt various early-termination baselines to tool use and introduce ThinkBrake, a training-free decoding heuristic. ThinkBrake monitors the log-probability margin between </think> and the current top token at sentence boundaries and triggers termination when this margin becomes small. Across BFCL's single turn, non-live and live splits, ThinkBrake preserves or improves accuracy while reducing tokens up to 25\%, outperforming various baselines.
- Abstract(参考訳): 小さな推論モデル(SRM)は、ツール使用中にしばしば過大評価され、正しいツール引数設定に達し、推論を継続し、誤った最終呼び出しで上書きする。
文境界に </think> を注入するオラクルロールアウトによる過剰思考を診断する。
バークレー関数呼び出しリーダーボード(BFCL)では、このオラクル終端は平均精度を85.8\%から94.2\%に引き上げ、トークンを80-94\%減らし、かなり回復可能なヘッドルームと潜在的な冗長な推論を明らかにしている。
簡潔な推論に関する以前の研究は、主に数学を対象としていたが、ツール推論は未解明のままである。
ツールの使用に様々な早期終了ベースラインを適用し、トレーニング不要なデコードヒューリスティックであるThinkBrakeを導入します。
ThinkBrakeは、 </think>と文境界における現在のトップトークンの間のログ確率のマージンを監視し、このマージンが小さくなったときに終了をトリガーする。
BFCLのシングルターン、ライブスプリット、ライブスプリットに加えて、ThinkBrakeはトークンを最大25%削減し、さまざまなベースラインを上回る精度を保っている。
関連論文リスト
- Your Models Have Thought Enough: Training Large Reasoning Models to Stop Overthinking [50.97239453902612]
大規模推論モデル(LRM)は、困難なタスクにおいて顕著なパフォーマンスを達成したが、その深い推論はしばしばかなりの計算コストを発生させる。
Evidence Accumulation Modelsにインスパイアされて、LEMは推論の初期段階で十分な情報を蓄積し、さらなる推論ステップを冗長にすることがわかった。
不要な推論を積極的に終了させるためにモデルを訓練するJust-Enough Thinking (JET)を提案する。
論文 参考訳(メタデータ) (2025-09-27T16:25:06Z) - Stop Spinning Wheels: Mitigating LLM Overthinking via Mining Patterns for Early Reasoning Exit [114.83867400179354]
オーバーライドは、大きな言語モデル全体のパフォーマンスを低下させる可能性がある。
推論は, 探索段階の不足, 補償推論段階, 推論収束段階の3段階に分類される。
我々は,ルールに基づく軽量なしきい値設定戦略を開発し,推論精度を向上させる。
論文 参考訳(メタデータ) (2025-08-25T03:17:17Z) - Think Clearly: Improving Reasoning via Redundant Token Pruning [57.01254508252785]
推論過程における冗長性を意図的に除去することで、性能が大幅に向上することを示す。
本手法は, 推論集約型ベンチマークにおいて, トレーニングを伴わずに, 全体的な精度を著しく向上することを示した。
論文 参考訳(メタデータ) (2025-06-17T06:04:01Z) - VeriThinker: Learning to Verify Makes Reasoning Model Efficient [52.74493506816969]
大型推論モデルは、Chain-of-Thought (CoT)推論を用いて複雑なタスクで優れている。
過度に考える傾向は、必然的に長い推論連鎖に繋がる。
我々は,CoT圧縮の新しい手法であるVeriThinkerを紹介する。
論文 参考訳(メタデータ) (2025-05-23T14:17:56Z) - ThinkLess: A Training-Free Inference-Efficient Method for Reducing Reasoning Redundancy [8.962703809086628]
ThinkLessは推論効率のよいフレームワークで、推論生成を早期に終了し、モデルを変更することなく出力品質を維持する。
我々はThinkLessが完全長のChain-of-Thought(CoT)デコードに匹敵する精度を実現し,デコード時間とメモリ消費を大幅に削減することを示した。
論文 参考訳(メタデータ) (2025-05-21T15:58:16Z) - Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.08396797526657]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z) - ThinkEdit: Interpretable Weight Editing to Mitigate Overly Short Thinking in Reasoning Models [25.870593499694092]
推論モデルの隠れ表現に、推論の長さがどのように埋め込まれているかを検討する。
我々は、過剰に短い推論の問題を軽減するために、シンプルだが効果的な重み付けアプローチであるThinkEditを紹介した。
論文 参考訳(メタデータ) (2025-03-27T23:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。