論文の概要: RAST: Reasoning Activation in LLMs via Small-model Transfer
- arxiv url: http://arxiv.org/abs/2506.15710v1
- Date: Fri, 30 May 2025 17:57:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-29 09:28:14.778019
- Title: RAST: Reasoning Activation in LLMs via Small-model Transfer
- Title(参考訳): RAST:小型モデル転送によるLDMの活性化
- Authors: Siru Ouyang, Xinyu Zhu, Zilin Xiao, Minhao Jiang, Yu Meng, Jiawei Han,
- Abstract要約: 強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上のための強力なアプローチとなっている。
大規模にRLを適用することは、潜在的にリソース集約であり、複数のモデルコピーと広範なGPUワークロードを必要とします。
本稿では、RL学習モデルからRL学習モデルからより大規模なモデルにRL誘導確率調整を注入することにより、推論挙動を伝達する簡易かつ効果的なRASTを提案する。
- 参考スコア(独自算出の注目度): 33.32587030836428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has become a powerful approach for improving the reasoning capabilities of large language models (LLMs), as evidenced by recent successes such as OpenAI's o1 and Deepseek-R1. However, applying RL at scale remains intimidatingly resource-intensive, requiring multiple model copies and extensive GPU workloads. On the other hand, while being powerful, recent studies suggest that RL does not fundamentally endow models with new knowledge; rather, it primarily reshapes the model's output distribution to activate reasoning capabilities latent in the base model. Building on this insight, we hypothesize that the changes in output probabilities induced by RL are largely model-size invariant, opening the door to a more efficient paradigm: training a small model with RL and transferring its induced probability shifts to larger base models. To verify our hypothesis, we conduct a token-level analysis of decoding trajectories and find high alignment in RL-induced output distributions across model scales, validating our hypothesis. Motivated by this, we propose RAST, a simple yet effective method that transfers reasoning behaviors by injecting RL-induced probability adjustments from a small RL-trained model into larger models. Experiments across multiple mathematical reasoning benchmarks show that RAST substantially and consistently enhances the reasoning capabilities of base models while requiring significantly lower GPU memory than direct RL training, sometimes even yielding better performance than the RL-trained counterparts. Our findings offer new insights into the nature of RL-driven reasoning and practical strategies for scaling its benefits without incurring its full computational cost. The project page of RAST is available at https://ozyyshr.github.io/RAST/.
- Abstract(参考訳): 強化学習(RL)は、OpenAIのo1やDeepseek-R1といった最近の成功によって証明されているように、大規模言語モデル(LLM)の推論能力を改善するための強力なアプローチとなっている。
しかしながら、スケールでのRLの適用は、複数のモデルコピーと広範なGPUワークロードを必要とするため、非常にリソース集約的なままである。
一方、RLは強力である一方、最近の研究では、RLはモデルに新しい知識を与えるのではなく、主にモデルの出力分布を再利用し、ベースモデルに潜む推論能力の活性化を図っている。
この知見に基づいて、RLによって誘導される出力確率の変化は、大半がモデルサイズの不変量であり、より効率的なパラダイムへの扉を開く。
仮説を検証するために, 軌道の復号化のトークンレベル解析を行い, モデルスケールにまたがるRL誘起出力分布に高いアライメントを見いだし, 仮説を検証した。
そこで本研究では,RL学習モデルからより大規模なモデルにRL誘導確率調整を注入することにより,推論行動の簡易かつ効果的な変換法であるRASTを提案する。
複数の数学的推論ベンチマークによる実験では、RASTはベースモデルの推論能力を大幅に向上する一方で、直接RLトレーニングよりもGPUメモリを著しく低くし、時にはRLトレーニングされたモデルよりもパフォーマンスも向上することが示された。
本研究は, RL による推論の性質に関する新たな知見を提供するとともに, 計算コストの削減を伴わずにそのメリットをスケールするための実践的戦略を提供する。
RASTのプロジェクトページはhttps://ozyyshr.github.io/RAST/で公開されている。
関連論文リスト
- Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [82.43575191712726]
本稿では,強化学習が推論に与える影響を明らかにするための,きめ細かい分析フレームワークを提案する。
本フレームワークは,RLトレーニングの恩恵を受けると仮定された重要な要素を具体的に調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models [89.37819814048288]
本稿では,KL分散制御,参照ポリシ,多様なタスクスイートを取り入れた新しいトレーニング手法であるProRLを紹介する。
我々の経験的分析により、RL学習モデルは、広範囲のpass@k評価において、ベースリセットモデルよりも一貫して優れていたことが明らかとなった。
これらの知見は、RLが言語モデルにおける推論境界を有意に拡張する条件について、新たな洞察を与える。
論文 参考訳(メタデータ) (2025-05-30T17:59:01Z) - Scaling Offline RL via Efficient and Expressive Shortcut Models [13.050231036248338]
ノイズサンプリングプロセスの反復性のため, オフライン強化学習(RL)は依然として困難である。
本稿では、ショートカットモデルを利用してトレーニングと推論の両方をスケールする新しいオフラインRLアルゴリズムであるScalable Offline Reinforcement Learning (SORL)を紹介する。
我々は、SORLがオフラインのRLタスクにまたがって高い性能を達成し、テスト時間計算の増大とともに正のスケーリング挙動を示すことを示した。
論文 参考訳(メタデータ) (2025-05-28T20:59:22Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [67.30809748319486]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,大規模言語モデル(LLM)の推論性能の向上に成功している。
本研究はRLVRの現状を批判的に考察する。
現在のトレーニング設定では、根本的な新しい推論パターンが生まれていないことが分かりました。
論文 参考訳(メタデータ) (2025-04-18T17:59:56Z) - Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - An Empirical Study on Eliciting and Improving R1-like Reasoning Models [90.52239241349504]
RLトレーニングのスケーリングは、そのような推論モデルを実装するための中心的なテクニックとなっている。
我々のRLトレーニングアプローチはQwen2.5-32Bベースモデルを継続的に改善することを示した。
また、ツール操作の利用についても検討し、大きな推論モデルの推論性能を大幅に向上させることを見出した。
論文 参考訳(メタデータ) (2025-03-06T15:34:27Z) - Enhancing Analogical Reasoning in the Abstraction and Reasoning Corpus via Model-Based RL [6.143939145442195]
モデルに基づく強化学習は類推的推論の課題に適した手法であることを示す。
モデルベースRL法であるDreamerV3とモデルフリーRL法であるProximal Policy Optimizationを比較した。
この結果から,モデルベースRLはモデルフリーのRLよりも,単一タスクからの学習や一般化に優れるだけでなく,類似タスク間の推論において大きな優位性を示すことがわかった。
論文 参考訳(メタデータ) (2024-08-27T08:15:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。