論文の概要: Learning to Reason as Action Abstractions with Scalable Mid-Training RL
- arxiv url: http://arxiv.org/abs/2509.25810v1
- Date: Tue, 30 Sep 2025 05:34:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.441696
- Title: Learning to Reason as Action Abstractions with Scalable Mid-Training RL
- Title(参考訳): スケーラブルな中級学習RLによる行動抽象化としての推論の学習
- Authors: Shenao Zhang, Donghan Yu, Yihao Feng, Bowen Jin, Zhaoran Wang, John Peebles, Zirui Wang,
- Abstract要約: 効果的な中間訓練フェーズは、有用なアクションのコンパクトなセットを特定し、高速な選択を可能にする。
本稿では,スケーラブルなミッドトレーニングアルゴリズムであるReasoning as Action Abstractions (RA3)を提案する。
- 参考スコア(独自算出の注目度): 55.24192942739207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models excel with reinforcement learning (RL), but fully unlocking this potential requires a mid-training stage. An effective mid-training phase should identify a compact set of useful actions and enable fast selection among them through online RL. We formalize this intuition by presenting the first theoretical result on how mid-training shapes post-training: it characterizes an action subspace that minimizes both the value approximation error from pruning and the RL error during subsequent planning. Our analysis reveals two key determinants of mid-training effectiveness: pruning efficiency, which shapes the prior of the initial RL policy, and its impact on RL convergence, which governs the extent to which that policy can be improved via online interactions. These results suggest that mid-training is most effective when the decision space is compact and the effective horizon is short, highlighting the importance of operating in the space of action abstractions rather than primitive actions. Building on these insights, we propose Reasoning as Action Abstractions (RA3), a scalable mid-training algorithm. Specifically, we derive a sequential variational lower bound and optimize it by iteratively discovering temporally-consistent latent structures via RL, followed by fine-tuning on the bootstrapped data. Experiments on code generation tasks demonstrate the effectiveness of our approach. Across multiple base models, RA3 improves the average performance on HumanEval and MBPP by 8 and 4 points over the base model and the next-token prediction baseline. Furthermore, RA3 achieves faster convergence and higher asymptotic performance in RLVR on HumanEval+, MBPP+, LiveCodeBench, and Codeforces.
- Abstract(参考訳): 大規模言語モデルは強化学習(RL)に優れるが、このポテンシャルを完全に解き放つには、訓練中の段階が必要である。
効果的な中間訓練フェーズでは、有用なアクションのコンパクトなセットを特定し、オンラインRLを介して高速な選択を可能にする必要がある。
我々は、この直観を、訓練後の中級トレーニングの形状に関する最初の理論的結果として、プルーニングからの値近似誤差とその後の計画におけるRL誤差の両方を最小化するアクション部分空間を特徴付けることによって定式化する。
分析の結果,初期RL政策の先行を形作るプルーニング効率と,オンラインインタラクションによる政策改善の程度を規定するRL収束に対する影響の2つの重要な要因が明らかになった。
これらの結果から,決定空間がコンパクトであり,効果的な地平線が短い場合には,中間学習が最も効果的であることが示唆された。
これらの知見に基づいて、スケーラブルなミッドトレーニングアルゴリズムであるReasoning as Action Abstractions (RA3)を提案する。
具体的には、逐次変動的下界を導出し、RLを介して時間的に一貫性のある潜伏構造を反復的に発見し、その後、ブートストラップデータに微調整することで最適化する。
コード生成タスクの実験は、我々のアプローチの有効性を示す。
複数のベースモデル全体で、RA3はHumanEvalとMBPPの平均性能をベースモデルと次の予測ベースラインで8と4ポイント改善する。
さらにRA3は,HumanEval+,MBPP+,LiveCodeBench,Codeforces上のRLVRにおいて,より高速な収束と漸近性能を実現する。
関連論文リスト
- Reinforcement Learning on Pre-Training Data [55.570379963147424]
我々は,大規模言語モデル(LLM)を最適化するための新しい訓練時間スケーリングパラダイムである,事前学習データ(R)の強化学習を紹介する。
Rは、有意義な軌道を自律的に探索し、事前学習データから学び、強化学習(RL)を通してその能力を向上させる。
複数のモデルにわたる一般領域および数学的推論ベンチマークの広範な実験は、Rの有効性を検証した。
論文 参考訳(メタデータ) (2025-09-23T17:10:40Z) - Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle [53.239242017802056]
強化学習(Reinforcement Learning, RL)は、マルチモーダル大言語モデル(MLLM)の推論能力を高めるための効果的なポストトレーニングパラダイムとして登場した。
しかしながら、現在のRLパイプラインは、アドバンテージ・コラプシング(Advantage Collapsing)とロールアウト・サイレンシング(Rollout Silencing)という2つの未解決の問題によって、トレーニングの非効率に悩まされることが多い。
軌道サンプリングとバッチ合成を動的に再構成することにより、RLの微調整効率を向上する、シンプルだが原則化されたフレームワークであるShuffle-R1を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:53:47Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - A Snapshot of Influence: A Local Data Attribution Framework for Online Reinforcement Learning [37.62558445850573]
オンラインRLトレーニングのためのアルゴリズム,反復的影響に基づくフィルタリング(IIF)を提案する。
IIFはサンプルの複雑さを減らし、トレーニングをスピードアップし、より高いリターンを達成する。
これらの結果は、オンラインRLの解釈可能性、効率、有効性を向上させる。
論文 参考訳(メタデータ) (2025-05-25T19:25:57Z) - DreamerV3 for Traffic Signal Control: Hyperparameter Tuning and Performance [4.962905815955427]
強化学習(Reinforcement Learning, RL)は、スマートTSC戦略の開発において、広く研究されている技術である。
DreamerV3アルゴリズムはポリシー学習のための魅力的な特性を示す。
本稿では,TSC戦略学習のための世界モデルの利点を探るため,DreamerV3アルゴリズムを用いて廊下TSCモデルを訓練する。
論文 参考訳(メタデータ) (2025-03-04T05:02:46Z) - POAR: Efficient Policy Optimization via Online Abstract State
Representation Learning [6.171331561029968]
状態表現学習(SRL)は,複雑な感覚データからタスク関連特徴を低次元状態に符号化する。
我々は、SRLの解釈を改善するために、専門家のデモンストレーションを活用するために、ドメイン類似と呼ばれる新しいSRLを導入する。
我々はPOARを実証的に検証し、高次元のタスクを効率的に処理し、スクラッチから直接実生活ロボットの訓練を容易にする。
論文 参考訳(メタデータ) (2021-09-17T16:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。