論文の概要: On Predictability of Reinforcement Learning Dynamics for Large Language Models
- arxiv url: http://arxiv.org/abs/2510.00553v2
- Date: Thu, 02 Oct 2025 15:16:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.409422
- Title: On Predictability of Reinforcement Learning Dynamics for Large Language Models
- Title(参考訳): 大規模言語モデルにおける強化学習ダイナミクスの予測可能性について
- Authors: Yuchen Cai, Ding Cao, Xin Xu, Zijun Yao, Yuqing Huang, Zhenyu Tan, Benyi Zhang, Guiquan Liu, Junfeng Fang,
- Abstract要約: 本研究は,大言語モデルにおけるRLによるパラメータ更新の2つの基本特性を同定する。
短期早期訓練ウィンドウを用いて最終パラメータ更新を補間するプラグインアクセラレーションフレームワークであるAlphaRLを提案する。
- 参考スコア(独自算出の注目度): 20.320268628019047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in reasoning capabilities of large language models (LLMs) are largely driven by reinforcement learning (RL), yet the underlying parameter dynamics during RL training remain poorly understood. This work identifies two fundamental properties of RL-induced parameter updates in LLMs: (1) Rank-1 Dominance, where the top singular subspace of the parameter update matrix nearly fully determines reasoning improvements, recovering over 99\% of performance gains; and (2) Rank-1 Linear Dynamics, where this dominant subspace evolves linearly throughout training, enabling accurate prediction from early checkpoints. Extensive experiments across 8 LLMs and 7 algorithms validate the generalizability of these properties. More importantly, based on these findings, we propose AlphaRL, a plug-in acceleration framework that extrapolates the final parameter update using a short early training window, achieving up to 2.5 speedup while retaining \textgreater 96\% of reasoning performance without extra modules or hyperparameter tuning. This positions our finding as a versatile and practical tool for large-scale RL, opening a path toward principled, interpretable, and efficient training paradigm for LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論能力の最近の進歩は、強化学習(RL)によって大きく左右されるが、RLトレーニングの根底にあるパラメータのダイナミクスはよく分かっていない。
1) パラメータ更新行列の上位特異部分空間が推論の改善をほぼ完全に決定し、99 %以上の性能向上を回復するRランク-1 線形ダイナミクス、(2) この支配的部分空間がトレーニングを通して線形に進化し、早期チェックポイントからの正確な予測を可能にするRランク-1 線形ダイナミクス。
8つのLLMと7つのアルゴリズムにわたる大規模な実験は、これらの特性の一般化性を検証する。
さらに,これらの知見に基づいて,短期早期学習ウィンドウを用いて最終パラメータ更新を補足するプラグインアクセラレーションフレームワークであるAlphaRLを提案する。
これにより、大規模RLのための汎用的で実用的なツールとして、LLMの原則、解釈可能、効率的なトレーニングパラダイムへの道を開くことができる。
関連論文リスト
- Evolution Strategies at Scale: LLM Fine-Tuning Beyond Reinforcement Learning [16.095629872564874]
強化学習はおそらく最も顕著な微調整法である。
進化戦略(ES)はかつて、数百万のパラメータを持つモデルでRLに匹敵する性能を示した。
ESは数十億のパラメータを効率的に探索し、既存のRLファインチューニング手法より優れている。
論文 参考訳(メタデータ) (2025-09-29T07:19:34Z) - Reinforcement Learning Fine-Tuning Enhances Activation Intensity and Diversity in the Internal Circuitry of LLMs [13.036236161537147]
大規模言語モデル(LLM)は、大規模な事前学習を通じて広範囲の事前知識を取得し、教師付き微調整(SFT)や強化学習(RL)ベースの後訓練によってさらに強化することができる。
RL微細調整は、SFT単独で達成した以上のLLMの能力を向上することを示す証拠が増えている。
しかし、RL微調整が固有の特性の異なる様々なLLMの能力を高めるメカニズムは未解明のままである。
論文 参考訳(メタデータ) (2025-09-25T11:51:05Z) - Reinforcement Learning on Pre-Training Data [55.570379963147424]
我々は,大規模言語モデル(LLM)を最適化するための新しい訓練時間スケーリングパラダイムである,事前学習データ(R)の強化学習を紹介する。
Rは、有意義な軌道を自律的に探索し、事前学習データから学び、強化学習(RL)を通してその能力を向上させる。
複数のモデルにわたる一般領域および数学的推論ベンチマークの広範な実験は、Rの有効性を検証した。
論文 参考訳(メタデータ) (2025-09-23T17:10:40Z) - Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle [53.239242017802056]
強化学習(Reinforcement Learning, RL)は、マルチモーダル大言語モデル(MLLM)の推論能力を高めるための効果的なポストトレーニングパラダイムとして登場した。
しかしながら、現在のRLパイプラインは、アドバンテージ・コラプシング(Advantage Collapsing)とロールアウト・サイレンシング(Rollout Silencing)という2つの未解決の問題によって、トレーニングの非効率に悩まされることが多い。
軌道サンプリングとバッチ合成を動的に再構成することにより、RLの微調整効率を向上する、シンプルだが原則化されたフレームワークであるShuffle-R1を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:53:47Z) - Reinforcement Learning Finetunes Small Subnetworks in Large Language Models [27.55599230411277]
強化学習(Reinforcement Learning, RL)は、大規模な言語モデルにおいて、タスクのパフォーマンスと人間の価値との整合性を大幅に向上させる。
驚くべきことに、このような大きな利益は、パラメータの5%から30%の小さなサブネットワークだけを更新することによるものです。
本稿では,この現象をRLにより引き起こされるパラメータ更新時空間性と呼ぶ。
論文 参考訳(メタデータ) (2025-05-16T21:42:28Z) - Model Extrapolation Expedites Alignment [135.12769233630362]
本研究では,人選好によるアライメントトレーニングを迅速化するExPOという手法を提案する。
我々は、ExPOがトレーニングされたDPOモデルを20%のステップで強化し、完全に訓練されたモデルを上回ることを実証した。
ExPO は AlpacaEval 2.0 と MT-Bench ベンチマークにおいて,既存のオープンソース LLM を特に改善している。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。