論文の概要: ThinkBrake: Mitigating Overthinking in Tool Reasoning
- arxiv url: http://arxiv.org/abs/2510.00546v1
- Date: Wed, 01 Oct 2025 06:04:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.405228
- Title: ThinkBrake: Mitigating Overthinking in Tool Reasoning
- Title(参考訳): ThinkBrake: ツール推論の過小評価
- Authors: Minjae Oh, Sangjun Song, Seungkyu Lee, Sungmin Jo, Yohan Jo,
- Abstract要約: 小さな推論モデル(SRM)は、しばしばツールの使用時に過大評価される。
文境界で/think>を注入/注入するオラクルロールアウトを通じて過剰思考を診断する。
ThinkBrakeは/think>と文境界における現在のトップトークンの間のログ確率のマージンを監視します。
- 参考スコア(独自算出の注目度): 10.90837973132995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Small reasoning models (SRMs) often overthink during tool use: they reach a correct tool-argument configuration, then continue reasoning and overwrite it with an incorrect final call. We diagnose overthinking via oracle rollouts that inject </think> at sentence boundaries. On the Berkeley Function Calling Leaderboard (BFCL), this oracle termination lifts average accuracy from 85.8\% to 94.2\% while reducing tokens by 80-94\%, revealing substantial recoverable headroom and potential redundant reasoning. While prior work on concise reasoning has largely targeted mathematics, tool reasoning remains underexplored. We adapt various early-termination baselines to tool use and introduce ThinkBrake, a training-free decoding heuristic. ThinkBrake monitors the log-probability margin between </think> and the current top token at sentence boundaries and triggers termination when this margin becomes small. Across BFCL's single turn, non-live and live splits, ThinkBrake preserves or improves accuracy while reducing tokens up to 25\%, outperforming various baselines.
- Abstract(参考訳): 小さな推論モデル(SRM)は、ツール使用中にしばしば過大評価され、正しいツール引数設定に達し、推論を継続し、誤った最終呼び出しで上書きする。
文境界に </think> を注入するオラクルロールアウトによる過剰思考を診断する。
バークレー関数呼び出しリーダーボード(BFCL)では、このオラクル終端は平均精度を85.8\%から94.2\%に引き上げ、トークンを80-94\%減らし、かなり回復可能なヘッドルームと潜在的な冗長な推論を明らかにしている。
簡潔な推論に関する以前の研究は、主に数学を対象としていたが、ツール推論は未解明のままである。
ツールの使用に様々な早期終了ベースラインを適用し、トレーニング不要なデコードヒューリスティックであるThinkBrakeを導入します。
ThinkBrakeは、 </think>と文境界における現在のトップトークンの間のログ確率のマージンを監視し、このマージンが小さくなったときに終了をトリガーする。
BFCLのシングルターン、ライブスプリット、ライブスプリットに加えて、ThinkBrakeはトークンを最大25%削減し、さまざまなベースラインを上回る精度を保っている。
関連論文リスト
- Thinking Traps in Long Chain-of-Thought: A Measurable Study and Trap-Aware Adaptive Restart [27.904791075662896]
TAAR(Trap-Aware Adaptive Restart)は,部分軌道から2つの信号を予測するための診断ポリシーをトレーニングするテスト時間制御フレームワークである。
推測時、TAARは予測されたトラップセグメントの前に軌道を切断し、復号を適応的に再起動する。
実験の結果,TAARはモデルパラメータを微調整することなく推論性能を向上させることがわかった。
論文 参考訳(メタデータ) (2026-01-17T07:26:02Z) - Beyond Model Scaling: Test-Time Intervention for Efficient Deep Reasoning [34.912727372324625]
Think-with-Meはテスト時のインタラクティブな推論パラダイムであり、推論プロセスに外部からのフィードバックの介入を導入する。
Think-with-Meは外部からのフィードバックのポイントでの推論を一時停止し、正確さを維持しながら冗長性を減らすために適応的に推論を拡張または終了する。
実験の結果,Think-with-Meは限られたコンテキストウィンドウ下での精度と推論長のバランスが良好であることがわかった。
論文 参考訳(メタデータ) (2026-01-16T13:00:42Z) - The Markovian Thinker [70.4118072391945]
強化学習(Reinforcement Learning, RL)は、LongCoT(LongCoT)という長鎖のLLMを学習するための強力なレシピとなっている。
しかし、状態がプロンプトプラス全ての先行推論トークンである標準的なRLの「思考環境」は、州を無拘束にし、思考が長くなるにつれて注意に基づく政策に二次計算を支払うよう強制する。
我々は,一定サイズの状態に条件付けしながら,政策が推論を進めるパラダイムであるマルコフ的思考を提案する。
論文 参考訳(メタデータ) (2025-10-08T01:18:13Z) - Your Models Have Thought Enough: Training Large Reasoning Models to Stop Overthinking [50.97239453902612]
大規模推論モデル(LRM)は、困難なタスクにおいて顕著なパフォーマンスを達成したが、その深い推論はしばしばかなりの計算コストを発生させる。
Evidence Accumulation Modelsにインスパイアされて、LEMは推論の初期段階で十分な情報を蓄積し、さらなる推論ステップを冗長にすることがわかった。
不要な推論を積極的に終了させるためにモデルを訓練するJust-Enough Thinking (JET)を提案する。
論文 参考訳(メタデータ) (2025-09-27T16:25:06Z) - Stop Spinning Wheels: Mitigating LLM Overthinking via Mining Patterns for Early Reasoning Exit [114.83867400179354]
オーバーライドは、大きな言語モデル全体のパフォーマンスを低下させる可能性がある。
推論は, 探索段階の不足, 補償推論段階, 推論収束段階の3段階に分類される。
我々は,ルールに基づく軽量なしきい値設定戦略を開発し,推論精度を向上させる。
論文 参考訳(メタデータ) (2025-08-25T03:17:17Z) - Think Clearly: Improving Reasoning via Redundant Token Pruning [57.01254508252785]
推論過程における冗長性を意図的に除去することで、性能が大幅に向上することを示す。
本手法は, 推論集約型ベンチマークにおいて, トレーニングを伴わずに, 全体的な精度を著しく向上することを示した。
論文 参考訳(メタデータ) (2025-06-17T06:04:01Z) - VeriThinker: Learning to Verify Makes Reasoning Model Efficient [52.74493506816969]
大型推論モデルは、Chain-of-Thought (CoT)推論を用いて複雑なタスクで優れている。
過度に考える傾向は、必然的に長い推論連鎖に繋がる。
我々は,CoT圧縮の新しい手法であるVeriThinkerを紹介する。
論文 参考訳(メタデータ) (2025-05-23T14:17:56Z) - ThinkLess: A Training-Free Inference-Efficient Method for Reducing Reasoning Redundancy [8.962703809086628]
ThinkLessは推論効率のよいフレームワークで、推論生成を早期に終了し、モデルを変更することなく出力品質を維持する。
我々はThinkLessが完全長のChain-of-Thought(CoT)デコードに匹敵する精度を実現し,デコード時間とメモリ消費を大幅に削減することを示した。
論文 参考訳(メタデータ) (2025-05-21T15:58:16Z) - Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.08396797526657]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z) - ThinkEdit: Interpretable Weight Editing to Mitigate Overly Short Thinking in Reasoning Models [25.870593499694092]
推論モデルの隠れ表現に、推論の長さがどのように埋め込まれているかを検討する。
我々は、過剰に短い推論の問題を軽減するために、シンプルだが効果的な重み付けアプローチであるThinkEditを紹介した。
論文 参考訳(メタデータ) (2025-03-27T23:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。