論文の概要: Does Your Reasoning Model Implicitly Know When to Stop Thinking?
- arxiv url: http://arxiv.org/abs/2602.08354v1
- Date: Mon, 09 Feb 2026 07:38:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.11325
- Title: Does Your Reasoning Model Implicitly Know When to Stop Thinking?
- Title(参考訳): 推論モデルはいつ考えるのをやめるべきなのか?
- Authors: Zixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuanda Wang, Zhixia Zhang, Hongyan Xie, Songshi Liang, Zehao Chen, Xuefeng Xiao, Fuzhen Zhuang, Jianxin Li, Yikun Ban, Deqing Wang,
- Abstract要約: LRMは思考を止めるための適切な時間を暗黙的に知っているが、この能力は現在のサンプリングパラダイムによって隠蔽されている。
そこで我々は,この効率的な推論可能性を解き放つ新しいサンプリングパラダイムであるSAGEを紹介した。
- 参考スコア(独自算出の注目度): 45.954548163594204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in large reasoning models (LRMs) have greatly improved their capabilities on complex reasoning tasks through Long Chains of Thought (CoTs). However, this approach often results in substantial redundancy, impairing computational efficiency and causing significant delays in real-time applications. Recent studies show that longer reasoning chains are frequently uncorrelated with correctness and can even be detrimental to accuracy. In a further in-depth analysis of this phenomenon, we surprisingly uncover and empirically verify that LRMs implicitly know the appropriate time to stop thinking, while this capability is obscured by current sampling paradigms. Motivated by this, we introduce SAGE (Self-Aware Guided Efficient Reasoning), a novel sampling paradigm that unleashes this efficient reasoning potential. Furthermore, integrating SAGE as mixed sampling into group-based reinforcement learning (SAGE-RL) enables SAGE-RL to effectively incorporate SAGE-discovered efficient reasoning patterns into standard pass@1 inference, markedly enhancing both the reasoning accuracy and efficiency of LRMs across multiple challenging mathematical benchmarks.
- Abstract(参考訳): 大規模推論モデル(LRM)の最近の進歩は、Long Chains of Thought (CoTs)を通して複雑な推論タスクの能力を大幅に向上させた。
しかし、このアプローチはしばしばかなりの冗長性をもたらし、計算効率が損なわれ、リアルタイムアプリケーションでかなりの遅延を引き起こす。
近年の研究では、長い推論鎖は、しばしば正確さと相関せず、精度を損なう可能性があることが示されている。
この現象のより詳細な分析では、現在のサンプリングパラダイムによってその能力が隠蔽されているのに対して、LEMが思考を止めるための適切な時間を暗黙的に知っていることを驚くほど明らかにし、実証的に検証する。
そこで我々は,SAGE(Self-Aware Guided Efficient Reasoning)を紹介した。
さらに、SAGEを混合サンプリングとしてグループベース強化学習(SAGE-RL)に統合することにより、SAGE-RLはSAGEが発見した効率的な推論パターンを標準パス@1推論に効果的に組み込むことができ、複数の挑戦的な数学的ベンチマークにおいて、LEMの推論精度と効率の両方を著しく向上させることができる。
関連論文リスト
- From Long to Short: LLMs Excel at Trimming Own Reasoning Chains [48.692414597960244]
O1/R1スタイルの大推論モデル(LRM)は、従来の命令追従 LLM よりも大幅に進歩している。
近年の研究では、LEMは過剰思考に苦しむ傾向があることが示されている。
本研究では,LRMを効率よく誘導し,テスト時に最も短い正しい推論経路を特定するテスト時間スケーリング手法EDITを提案する。
論文 参考訳(メタデータ) (2025-09-07T19:00:44Z) - Promoting Efficient Reasoning with Verifiable Stepwise Reward [7.385337642642193]
大規模推論モデル(LRM)は近年、強化学習によって支援された複雑な推論タスクにおいて大きな進歩を遂げている。
LRMは、単純な問題に対する過度な計算を過度に行い、効率を低下させることにしばしば悩まされる。
本稿では,中間状態の推論軌道における性能に基づいて報酬を割り当てる,ルールベースで検証可能なステップワイド報酬機構(VSRM)を提案する。
論文 参考訳(メタデータ) (2025-08-14T02:43:53Z) - Lost at the Beginning of Reasoning [85.17612793300238]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - Is Long-to-Short a Free Lunch? Investigating Inconsistency and Reasoning Efficiency in LRMs [8.359909829007005]
大規模推論モデル(LRM)において,効率的な推論手法が行動の不整合をもたらすかどうかを検討する。
$ICBENCH$は、3次元にわたるLRMの不整合を測定するために設計されたベンチマークである。
より大きなモデルは一般的に小さなモデルよりも一貫性が高いが、すべてのモデルが広く「計画的」な振る舞いを示す。
論文 参考訳(メタデータ) (2025-06-24T10:25:28Z) - Exploring and Exploiting the Inherent Efficiency within Large Reasoning Models for Self-Guided Efficiency Enhancement [101.77467538102924]
大きな推論モデル(LRM)は、効率を阻害し、推論コストを膨らませる過剰な考えを示す。
LRM効率を向上させるための2つの軽量手法を提案する。
まず,学習不要なアクティベーションステアリング技術であるEfficic Steeringを導入する。
第2に,タスクの正確さと簡潔さを動的にバランスする強化学習フレームワークである自己回帰効率RLを開発する。
論文 参考訳(メタデータ) (2025-06-18T17:18:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。