論文の概要: Learning Dynamics in RL Post-Training for Language Models
- arxiv url: http://arxiv.org/abs/2601.04670v1
- Date: Thu, 08 Jan 2026 07:32:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.077972
- Title: Learning Dynamics in RL Post-Training for Language Models
- Title(参考訳): 言語モデルのRL後学習における学習ダイナミクス
- Authors: Akiyoshi Tomihari,
- Abstract要約: 我々は、教師あり学習において研究されてきたが、RLでは未探索である視点から、RLポストトレーニングの学習ダイナミクスを分析した。
特徴表現の変動性に制限があることから,RL更新がモデル信頼性を体系的に向上させる可能性が示唆された。
これらの知見に感化されて、簡単な2段階学習戦略である分類器第一強化学習(CF-RL)を提案する。
- 参考スコア(独自算出の注目度): 2.538209532048867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) post-training is a critical stage in modern language model development, playing a key role in improving alignment and reasoning ability. However, several phenomena remain poorly understood, including the reduction in output diversity. To gain a broader understanding of RL post-training, we analyze the learning dynamics of RL post-training from a perspective that has been studied in supervised learning but remains underexplored in RL. We adopt an empirical neural tangent kernel (NTK) framework and decompose the NTK into two components to characterize how RL updates propagate across training samples. Our analysis reveals that limited variability in feature representations can cause RL updates to systematically increase model confidence, providing an explanation for the commonly observed reduction in output diversity after RL post-training. Furthermore, we show that effective learning in this regime depends on rapidly shaping the classifier, which directly affects the gradient component of the NTK. Motivated by these insights, we propose classifier-first reinforcement learning (CF-RL), a simple two-stage training strategy that prioritizes classifier updates before standard RL optimization. Experimental results validate our theoretical analysis by demonstrating increased model confidence and accelerated optimization under CF-RL. Additional analysis shows that the mechanism underlying CF-RL differs from that of linear-probing-then-fine-tuning in supervised learning. Overall, our study formalizes the learning dynamics of RL post-training and motivates further analysis and improvement.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、現代の言語モデル開発において重要な段階であり、アライメントと推論能力を改善する上で重要な役割を果たしている。
しかし、出力の多様性の低下など、いくつかの現象はよく理解されていない。
RLのポストトレーニングに関するより広範な理解を得るために、教師あり学習において研究されてきたが、RLでは未探索のままである視点からRLポストトレーニングの学習ダイナミクスを分析した。
我々は、経験的ニューラルネットワークカーネル(NTK)フレームワークを採用し、NTKを2つのコンポーネントに分解し、RL更新がトレーニングサンプル間でどのように伝播するかを特徴付ける。
分析の結果,特徴表現の変動性に制限があるため,RL更新によってモデル信頼性が体系的に向上し,RL後トレーニング後の出力多様性の低下が説明できることがわかった。
さらに,本体制における効果的な学習は,NTKの勾配成分に直接影響を及ぼす分類器の急激な形成に依存していることを示す。
これらの知見を活かして、標準RLの最適化に先立って分類器更新を優先する単純な2段階学習戦略である分類器第一強化学習(CF-RL)を提案する。
CF-RL下でのモデル信頼度向上と最適化の高速化を実証し, 理論的解析を検証した。
CF-RLの基盤となるメカニズムは、教師あり学習における線形プロビイング・then-fine-tuningのメカニズムとは異なっている。
本研究は総合的にRLの学習力学を定式化し,さらなる分析と改善を動機づけるものである。
関連論文リスト
- On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models [73.10315509190623]
最近の強化学習技術は、言語モデルにおいて顕著な推論改善をもたらした。
ポストトレーニングが、事前トレーニング中に取得したものを超えて、モデルの推論能力を真に拡張するかどうかは不明だ。
プレトレーニング,ミッドトレーニング,およびRLベースのポストトレーニングの因果的貢献を分離する,完全に制御された実験フレームワークを開発した。
論文 参考訳(メタデータ) (2025-12-08T18:12:10Z) - Reinforcement Learning Fine-Tuning Enhances Activation Intensity and Diversity in the Internal Circuitry of LLMs [13.036236161537147]
大規模言語モデル(LLM)は、大規模な事前学習を通じて広範囲の事前知識を取得し、教師付き微調整(SFT)や強化学習(RL)ベースの後訓練によってさらに強化することができる。
RL微細調整は、SFT単独で達成した以上のLLMの能力を向上することを示す証拠が増えている。
しかし、RL微調整が固有の特性の異なる様々なLLMの能力を高めるメカニズムは未解明のままである。
論文 参考訳(メタデータ) (2025-09-25T11:51:05Z) - Toward Cyclic A.I. Modelling of Self-Regulated Learning: A Case Study with E-Learning Trace Data [0.45060992929802207]
学生のSRL活動のモデル化を進めるために,SRLインフォームド・フィーチャをトレースデータに適用する。
これらの特徴により予測精度が向上し,SRLの循環モデリング技術に関するさらなる研究の価値が検証された。
論文 参考訳(メタデータ) (2025-06-25T04:47:53Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Reshaping Reasoning in LLMs: A Theoretical Analysis of RL Training Dynamics through Pattern Selection [35.268183415853976]
本稿では,実験解析と厳密な理論的モデリングによるRL学習プロセスの説明を行う。
我々は、報酬(RLVR)とモデルの内部フィードバック(RLIF)という2つの典型的な報酬を用いて、RLのトレーニングダイナミクスを理解するための理論的枠組みを開発する。
論文 参考訳(メタデータ) (2025-06-05T07:17:04Z) - Behavior Injection: Preparing Language Models for Reinforcement Learning [45.744838898763554]
我々はRL目標のステップごとの影響を分析し、効果的な後学習のための2つの重要な条件を同定する。
RLに先立って適用されたタスクに依存しないデータ拡張方式である振舞い注入を提案する。
提案手法は,複数のベースモデルを用いた2つの推論ベンチマークで評価する。
論文 参考訳(メタデータ) (2025-05-25T00:54:50Z) - Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [66.61292196146016]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,大規模言語モデル(LLM)の推論性能の向上に成功している。
本研究はRLVRの現状を批判的に考察する。
現在のトレーニング設定では、根本的な新しい推論パターンが生まれていないことが分かりました。
論文 参考訳(メタデータ) (2025-04-18T17:59:56Z) - Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。