論文の概要: ROM: Real-time Overthinking Mitigation via Streaming Detection and Intervention
- arxiv url: http://arxiv.org/abs/2603.22016v1
- Date: Mon, 23 Mar 2026 14:26:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.710284
- Title: ROM: Real-time Overthinking Mitigation via Streaming Detection and Intervention
- Title(参考訳): ROM:ストリーミング検出と干渉による緩和をリアルタイムに再考する
- Authors: Xinyan Wang, Xiaogeng Liu, Chaowei Xiao,
- Abstract要約: 再考は、大きな推論モデルが正しい答えに達した後、冗長な推論ステップを生成し続けるときに起こる。
本稿では,ストリーミング予測・制御問題として緩和を過度に検討する最初の方法であるROMを提案する。
ROMは最高精度(93.51%)、最短応答(1,159トークン)、最高応答効率を達成する。
- 参考スコア(独自算出の注目度): 49.01160161589609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Reasoning Models (LRMs) achieve strong accuracy on challenging tasks by generating long Chain-of-Thought traces, but suffer from overthinking. Even after reaching the correct answer, they continue generating redundant reasoning steps. This behavior increases latency and compute cost and can also lead to answer drift. Existing mitigation methods either require training-heavy backbone modification or rely on hand-crafted heuristics that do not truly capture overthinking patterns. We propose ROM, the first method that formulates overthinking mitigation as a streaming prediction-and-control problem. ROM attaches a lightweight detection head to the late-layer hidden states of a frozen large language model backbone. It monitors tokens in real time and triggers an early transition to the final answer once overthinking is detected. We also introduce token-level supervision based on solution correctness boundaries and a data augmentation strategy that reduces distilled-data bias. Across seven benchmarks, ROM achieves the highest accuracy (93.51%), the shortest responses (1,159 tokens), and the best response efficiency. Compared with the vanilla baseline, it reduces response length by 47.2% and improves efficiency by 121%. These results show that streaming detection is a promising approach to real-time overthinking mitigation.
- Abstract(参考訳): 大型共振モデル(LRM)は、長いチェーン・オブ・サートトレースを生成することで、困難なタスクに対して高い精度を達成するが、過度に考え直される。
正しい答えに達した後も、冗長な推論ステップを生成し続ける。
この振る舞いはレイテンシと計算コストを増大させ、ドリフトに答える可能性がある。
既存の緩和方法はトレーニングに重きを置くバックボーンの修正を必要とするか、あるいは過度に考え抜かれたパターンを真に捉えない手作りのヒューリスティックに依存している。
本稿では,ストリーミング予測・制御問題として緩和を過度に検討する最初の方法であるROMを提案する。
ROMは、冷凍された大きな言語モデルバックボーンの遅延層隠れ状態に軽量な検出ヘッドを付加する。
トークンをリアルタイムで監視し、オーバーライドが検出されると、最終回答への早期移行をトリガーする。
また、ソリューションの正当性境界に基づくトークンレベルの監視や、蒸留データバイアスを低減するデータ拡張戦略も導入する。
7つのベンチマークで、ROMは最高精度(93.51%)、最短応答(1,159トークン)、最高応答効率を達成している。
バニラベースラインと比較して、応答長を47.2%削減し、効率を121%向上させる。
これらの結果から,ストリーミング検出はリアルタイムの過度な緩和に対する有望なアプローチであることが示唆された。
関連論文リスト
- Reasoning Theater: Disentangling Model Beliefs from Chain-of-Thought [11.955186033088351]
推論モデルにおける行動連鎖(CoT)の証拠を提供する。
アクティベーションプロービング、早期強制応答、および2つの大きなモデルにわたるCoTモニターを比較した。
難解なマルチホップGPQA-ダイアモンド問題における真の推論とは対照的である。
論文 参考訳(メタデータ) (2026-03-05T18:55:16Z) - Thinking Traps in Long Chain-of-Thought: A Measurable Study and Trap-Aware Adaptive Restart [27.904791075662896]
TAAR(Trap-Aware Adaptive Restart)は,部分軌道から2つの信号を予測するための診断ポリシーをトレーニングするテスト時間制御フレームワークである。
推測時、TAARは予測されたトラップセグメントの前に軌道を切断し、復号を適応的に再起動する。
実験の結果,TAARはモデルパラメータを微調整することなく推論性能を向上させることがわかった。
論文 参考訳(メタデータ) (2026-01-17T07:26:02Z) - Thinking-Based Non-Thinking: Solving the Reward Hacking Problem in Training Hybrid Reasoning Models via Reinforcement Learning [57.57084309580296]
Thinking-Based Non-Thinkingは、さまざまなクエリに対する思考を使用しない応答に対して、異なる最大トークン使用量を設定する。
5つの数学ベンチマークの実験により、TNTはトークンの使用量を約50%削減することを示した。
TNTの応答における報酬ハッキングの確率は、思考を使用しないものとして分類されているが、依然として10%以下である。
論文 参考訳(メタデータ) (2026-01-08T10:38:41Z) - Addressing Overthinking in Large Vision-Language Models via Gated Perception-Reasoning Optimization [56.59356959631999]
Gated Perception-Reasoning Optimization (GPRO) は3つの決定経路間で動的に計算をルーティングするメタ推論コントローラである。
GPROは精度と効率を大幅に改善し、最近のスロー思考法よりも優れている。
論文 参考訳(メタデータ) (2026-01-07T23:05:17Z) - Entropy After $\langle \texttt{/Think} \rangle$ for reasoning model early exiting [38.93424884988798]
正しい解に到達した後も、回答を再検討し続けながら、大きな推論モデルが過大評価されていることを示す。
We propose Entropy After /Think> (EAT) for monitoring and decide whether to exit reasoning early。
EATは、正確性を損なうことなく、トークン使用量を13~21%削減する。
論文 参考訳(メタデータ) (2025-09-30T16:59:37Z) - Stop Spinning Wheels: Mitigating LLM Overthinking via Mining Patterns for Early Reasoning Exit [114.83867400179354]
オーバーライドは、大きな言語モデル全体のパフォーマンスを低下させる可能性がある。
推論は, 探索段階の不足, 補償推論段階, 推論収束段階の3段階に分類される。
我々は,ルールに基づく軽量なしきい値設定戦略を開発し,推論精度を向上させる。
論文 参考訳(メタデータ) (2025-08-25T03:17:17Z) - Revisiting Overthinking in Long Chain-of-Thought from the Perspective of Self-Doubt [74.35891434097053]
RLLM(Reasoning Large Language Models)は、複雑なタスクにおいて素晴らしいパフォーマンスを示す。
彼らはしばしば過度に考え、正しい答えに達した後も不必要な推論ステップを実行します。
本稿では,自己疑念の観点から,過剰思考を定量的に分析する。
本稿では,入力問題に対するモデルの過度信頼度を低減するための,シンプルで効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2025-05-29T14:30:02Z) - VeriThinker: Learning to Verify Makes Reasoning Model Efficient [52.74493506816969]
大型推論モデルは、Chain-of-Thought (CoT)推論を用いて複雑なタスクで優れている。
過度に考える傾向は、必然的に長い推論連鎖に繋がる。
我々は,CoT圧縮の新しい手法であるVeriThinkerを紹介する。
論文 参考訳(メタデータ) (2025-05-23T14:17:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。