論文の概要: Learning When to Think: Shaping Adaptive Reasoning in R1-Style Models via Multi-Stage RL
- arxiv url: http://arxiv.org/abs/2505.10832v1
- Date: Fri, 16 May 2025 04:01:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:13.976633
- Title: Learning When to Think: Shaping Adaptive Reasoning in R1-Style Models via Multi-Stage RL
- Title(参考訳): マルチステージRLを用いたR1スタイルモデルにおける適応推論の学習
- Authors: Songjun Tu, Jiahao Lin, Qichao Zhang, Xiangyu Tian, Linjing Li, Xiangyuan Lan, Dongbin Zhao,
- Abstract要約: 大規模推論モデル(LRM)は、最終的な答えを生成する前に、明示的でステップバイステップの推論シーケンスを生成するのに熟練している。
この過度に考える問題に対処するため、適応的思考能力を備えたLEMの装備方法について検討する。
推論ポリシーを段階的に最適化する多段階強化学習フレームワークであるAutoThinkを提案する。
- 参考スコア(独自算出の注目度): 19.731871225975926
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large reasoning models (LRMs) are proficient at generating explicit, step-by-step reasoning sequences before producing final answers. However, such detailed reasoning can introduce substantial computational overhead and latency, particularly for simple problems. To address this over-thinking problem, we explore how to equip LRMs with adaptive thinking capabilities: enabling them to dynamically decide whether or not to engage in explicit reasoning based on problem complexity. Building on R1-style distilled models, we observe that inserting a simple ellipsis ("...") into the prompt can stochastically trigger either a thinking or no-thinking mode, revealing a latent controllability in the reasoning behavior. Leveraging this property, we propose AutoThink, a multi-stage reinforcement learning (RL) framework that progressively optimizes reasoning policies via stage-wise reward shaping. AutoThink learns to invoke explicit reasoning only when necessary, while defaulting to succinct responses for simpler tasks. Experiments on five mainstream mathematical benchmarks demonstrate that AutoThink achieves favorable accuracy-efficiency trade-offs compared to recent prompting and RL-based pruning methods. It can be seamlessly integrated into any R1-style model, including both distilled and further fine-tuned variants. Notably, AutoThink improves relative accuracy by 6.4 percent while reducing token usage by 52 percent on DeepSeek-R1-Distill-Qwen-1.5B, establishing a scalable and adaptive reasoning paradigm for LRMs.
- Abstract(参考訳): 大規模推論モデル(LRM)は、最終的な答えを生成する前に、明示的でステップバイステップの推論シーケンスを生成するのに熟練している。
しかし、そのような詳細な推論は、特に単純な問題に対して、かなりの計算オーバーヘッドと遅延をもたらす可能性がある。
この過度に考え抜かれた問題に対処するために、適応的思考能力を備えたLEMをどう組み合わせるかを検討する。
R1型蒸留モデルを用いて、簡単な楕円体(「...」)をプロンプトに挿入すると、思考モードまたは非思考モードが確率的に引き起こされ、推論動作における遅延制御性が明らかになる。
この特性を活用することで、段階的な報酬形成による推論ポリシーを段階的に最適化する多段階強化学習(RL)フレームワークであるAutoThinkを提案する。
AutoThinkは、必要なときにのみ明示的な推論を実行し、単純なタスクに対して簡潔なレスポンスをデフォルトにすることを学ぶ。
5つの主要な数学ベンチマークの実験では、AutoThinkは最近のプロンプト法やRLベースのプルーニング法と比較して、良好な精度と効率のトレードオフを達成している。
蒸留およびさらに微調整された変種を含む任意のR1型モデルにシームレスに統合することができる。
特にAutoThinkはトークン使用率を6.4%改善し、DeepSeek-R1-Distill-Qwen-1.5Bでは52%削減した。
関連論文リスト
- SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Adaptive Rectification Sampling for Test-Time Compute Scaling [5.085583751997239]
本稿では,大規模言語モデルを自己補正に導くために,適応整形サンプリング(AR-Sampling)を提案する。
我々のアプローチは、モデルがよりきめ細かいレベルで再考し、解の精度を向上することを可能にする。
論文 参考訳(メタデータ) (2025-04-02T02:57:52Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model [70.77691645678804]
非SFT 2Bモデルのみを用いたマルチモーダル推論における創発的特性の再現に成功した最初の例を示す。
本モデルはCVBenchで59.47%の精度を達成し, ベースモデルを約30%, SFT設定を2%以上上回った。
さらに,RLとインストラクションモデルを用いてR1のような推論を行おうとする試みの失敗と知見を共有した。
論文 参考訳(メタデータ) (2025-03-07T04:21:47Z) - Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning [23.99454995087634]
大規模推論モデルにおけるルールベース強化学習の可能性について検討する。
合成論理パズルは, 制御可能な複雑性と簡単な解答検証により, 学習データとして用いられる。
我々の7Bモデルは、論理コーパスにはない、リフレクション、検証、要約のような高度な推論スキルを発達させる。
論文 参考訳(メタデータ) (2025-02-20T17:49:26Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。