論文の概要: Beyond Model Scaling: Test-Time Intervention for Efficient Deep Reasoning
- arxiv url: http://arxiv.org/abs/2601.11252v1
- Date: Fri, 16 Jan 2026 13:00:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.490636
- Title: Beyond Model Scaling: Test-Time Intervention for Efficient Deep Reasoning
- Title(参考訳): モデルスケーリングを超えて - 効率的なディープ推論のためのテスト時間インターベンション
- Authors: Qianyue Wang, Jinwu Hu, Yufeng Wang, Huanxiang Lin, Bolin Chen, Zhiquan Wen, Yaofo Chen, Mingkui Tan,
- Abstract要約: Think-with-Meはテスト時のインタラクティブな推論パラダイムであり、推論プロセスに外部からのフィードバックの介入を導入する。
Think-with-Meは外部からのフィードバックのポイントでの推論を一時停止し、正確さを維持しながら冗長性を減らすために適応的に推論を拡張または終了する。
実験の結果,Think-with-Meは限られたコンテキストウィンドウ下での精度と推論長のバランスが良好であることがわかった。
- 参考スコア(独自算出の注目度): 34.912727372324625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Reasoning Models (LRMs) excel at multi-step reasoning but often suffer from inefficient reasoning processes like overthinking and overshoot, where excessive or misdirected reasoning increases computational cost and degrades performance. Existing efficient reasoning methods operate in a closed-loop manner, lacking mechanisms for external intervention to guide the reasoning process. To address this, we propose Think-with-Me, a novel test-time interactive reasoning paradigm that introduces external feedback intervention into the reasoning process. Our key insights are that transitional conjunctions serve as natural points for intervention, signaling phases of self-validation or exploration and using transitional words appropriately to prolong the reasoning enhances performance, while excessive use affects performance. Building on these insights, Think-with-Me pauses reasoning at these points for external feedback, adaptively extending or terminating reasoning to reduce redundancy while preserving accuracy. The feedback is generated via a multi-criteria evaluation (rationality and completeness) and comes from either human or LLM proxies. We train the target model using Group Relative Policy Optimization (GRPO) to adapt to this interactive mode. Experiments show that Think-with-Me achieves a superior balance between accuracy and reasoning length under limited context windows. On AIME24, Think-with-Me outperforms QwQ-32B by 7.19% in accuracy while reducing average reasoning length by 81% under an 8K window. The paradigm also benefits security and creative tasks.
- Abstract(参考訳): 大規模推論モデル(LRM)は多段階の推論において優れるが、過度にあるいは過度に指示された推論が計算コストを増大させ、性能を低下させるような過度な思考やオーバーシュートのような非効率的な推論プロセスに悩まされることが多い。
既存の効率的な推論手法はクローズドループ方式で動作し、推論プロセスを導くための外部介入のメカニズムが欠如している。
そこで我々は,外部からのフィードバックの介入を推論プロセスに導入する,新しいテスト時間対話型推論パラダイムであるThink-with-Meを提案する。
我々の重要な洞察は、過度な使用がパフォーマンスに影響を及ぼす一方で、過度な使用がパフォーマンスを高めるのに対して、トランザクショナルな単語を適切に使用することにより、トランザクショナルな結合が介入、自己検証、探索の自然なポイントとして機能するということである。
これらの洞察に基づいて、Think-with-Meは外部からのフィードバックのためにこれらのポイントでの推論を一時停止し、正確性を保ちながら冗長性を減らすために適応的に推論を延長または終了する。
フィードバックは多条件評価(合理性と完全性)を通じて生成され、人間またはLLMプロキシから得られる。
我々は、このインタラクティブモードに対応するために、グループ相対ポリシー最適化(GRPO)を用いてターゲットモデルを訓練する。
実験の結果,Think-with-Meは限られたコンテキストウィンドウ下での精度と推論長のバランスが良好であることがわかった。
AIME24では、Think-with-MeがQwQ-32Bの精度を7.19%上回り、8Kウィンドウで平均推論長を81%下回る。
このパラダイムは、セキュリティやクリエイティブなタスクにも役立ちます。
関連論文リスト
- Explore Briefly, Then Decide: Mitigating LLM Overthinking via Cumulative Entropy Regulation [82.62935304152239]
大規模言語モデル(LLM)は、長いチェーン・オブ・ソート(CoT)推論を用いた複雑な問題に対する顕著な推論能力を示した。
しばしば過度の思考に悩まされ、単純な問題に対して必要以上に長い推論ステップが生じる。
本稿では, 推論過程を通じて探索範囲を計測する新しい計量量であるToken Entropy Cumulative Average(TECA)を紹介する。
論文 参考訳(メタデータ) (2025-10-02T17:36:50Z) - Promoting Efficient Reasoning with Verifiable Stepwise Reward [7.385337642642193]
大規模推論モデル(LRM)は近年、強化学習によって支援された複雑な推論タスクにおいて大きな進歩を遂げている。
LRMは、単純な問題に対する過度な計算を過度に行い、効率を低下させることにしばしば悩まされる。
本稿では,中間状態の推論軌道における性能に基づいて報酬を割り当てる,ルールベースで検証可能なステップワイド報酬機構(VSRM)を提案する。
論文 参考訳(メタデータ) (2025-08-14T02:43:53Z) - Think or Not? Exploring Thinking Efficiency in Large Reasoning Models via an Information-Theoretic Lens [51.90059610606049]
本稿では,情報理論レンズによる推論プロセスの効率を再考する。
本稿では,理想的な推論経路と段階的な情報提供から分岐を定量化するために,InfoBias と InfoGain という2つの指標を提案する。
これらの知見に触発されて,信頼度が十分に高ければ推論を動的に停止する,エントロピーに基づく適応的思考戦略を導入する。
論文 参考訳(メタデータ) (2025-05-23T13:38:56Z) - Let LRMs Break Free from Overthinking via Self-Braking Tuning [68.93713497579853]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。