論文の概要: Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining
- arxiv url: http://arxiv.org/abs/2504.07912v1
- Date: Thu, 10 Apr 2025 17:15:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:19:52.838833
- Title: Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining
- Title(参考訳): Echo Chamber: RLポストトレーニングは事前トレーニングで学んだ振る舞いを増幅する
- Authors: Rosie Zhao, Alexandru Meterez, Sham Kakade, Cengiz Pehlevan, Samy Jelassi, Eran Malach,
- Abstract要約: 強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
- 参考スコア(独自算出の注目度): 74.83412846804977
- License:
- Abstract: Reinforcement learning (RL)-based fine-tuning has become a crucial step in post-training language models for advanced mathematical reasoning and coding. Following the success of frontier reasoning models, recent work has demonstrated that RL fine-tuning consistently improves performance, even in smaller-scale models; however, the underlying mechanisms driving these improvements are not well-understood. Understanding the effects of RL fine-tuning requires disentangling its interaction with pretraining data composition, hyperparameters, and model scale, but such problems are exacerbated by the lack of transparency regarding the training data used in many existing models. In this work, we present a systematic end-to-end study of RL fine-tuning for mathematical reasoning by training models entirely from scratch on different mixtures of fully open datasets. We investigate the effects of various RL fine-tuning algorithms (PPO, GRPO, and Expert Iteration) across models of different scales. Our study reveals that RL algorithms consistently converge towards a dominant output distribution, amplifying patterns in the pretraining data. We also find that models of different scales trained on the same data mixture will converge to distinct output distributions, suggesting that there are scale-dependent biases in model generalization. Moreover, we find that RL post-training on simpler questions can lead to performance gains on harder ones, indicating that certain reasoning capabilities generalize across tasks. Our findings show that small-scale proxies in controlled settings can elicit interesting insights regarding the role of RL in shaping language model behavior.
- Abstract(参考訳): 強化学習(RL)に基づく微調整は、高度な数学的推論とコーディングのための後学習言語モデルにおいて重要なステップとなっている。
フロンティア推論モデルの成功に続いて、最近の研究により、RLファインチューニングは小型モデルでも一貫して性能を改善することが示されているが、これらの改善を導く基盤となるメカニズムは十分に理解されていない。
RLファインチューニングの効果を理解するには、事前学習データ構成、ハイパーパラメータ、モデルスケールとの相互作用を解消する必要があるが、既存のモデルで使用されているトレーニングデータに関する透明性の欠如により、そのような問題が悪化する。
本研究では、完全にオープンなデータセットの異なる混合に対して、完全にスクラッチからトレーニングモデルによる数学的推論のためのRLファインタニングの体系的なエンドツーエンドの研究を示す。
各種RL微調整アルゴリズム (PPO, GRPO, Expert Iteration) の効果について検討した。
本研究では,RLアルゴリズムが支配的な出力分布へ連続的に収束し,事前学習データのパターンを増幅することを明らかにする。
また、同じデータ混合で訓練された異なるスケールのモデルは、異なる出力分布に収束し、モデル一般化にスケール依存バイアスが存在することを示唆する。
さらに、より単純な質問に対するRLポストトレーニングは、より難しい質問に対するパフォーマンス向上につながる可能性があり、タスク全体にわたって特定の推論能力が一般化されることが示される。
その結果,制御された環境下での小規模プロキシは,言語モデル形成におけるRLの役割に関する興味深い洞察を引き出すことができることがわかった。
関連論文リスト
- Does RLHF Scale? Exploring the Impacts From Data, Model, and Method [83.53178716807776]
本研究では,大規模言語モデルにおける人間のフィードバックからの強化学習のスケーリング特性について検討する。
RLHFフレームワークの主要なコンポーネント、モデルサイズ、データ構成、推論予算、およびそれらのパフォーマンスへの影響を分析します。
論文 参考訳(メタデータ) (2024-12-08T17:19:48Z) - The Surprising Ineffectiveness of Pre-Trained Visual Representations for Model-Based Reinforcement Learning [8.36595587335589]
視覚強化学習法は、しばしば大量のデータを必要とする。
モデルベースRL(MBRL)は、プランニングによる効率的なデータ利用の潜在的なソリューションを提供する。
MBRLには現実世界のタスクの一般化機能が欠けている。
論文 参考訳(メタデータ) (2024-11-15T13:21:26Z) - Investigating the Impact of Model Complexity in Large Language Models [3.7919508292745676]
事前訓練された微調整パラダイムに基づく大規模言語モデル(LLM)は、自然言語処理タスクの解決において重要な役割を担っている。
本稿では,自己回帰 LLM に着目し,HMM (Hidden Markov Models) を用いたモデリングを提案する。
論文 参考訳(メタデータ) (2024-10-01T13:53:44Z) - Scaling Offline Model-Based RL via Jointly-Optimized World-Action Model Pretraining [49.730897226510095]
我々は,60億のトークンデータを持つアタリゲーム上で事前訓練されたオフラインモデルベースRLエージェントであるJOWA: Jointly-Reinforceed World-Action Modelを紹介する。
われわれの最大のエージェントは、1億5000万のパラメータを持ち、10%のサブサンプルオフラインデータだけで事前トレーニングされたゲーム上での人間レベルのパフォーマンス78.9%で、既存の最先端の大規模なオフラインRLベースラインを31.6%上回っている。
論文 参考訳(メタデータ) (2024-10-01T10:25:03Z) - Machine Learning vs Deep Learning: The Generalization Problem [0.0]
本研究では,従来の機械学習(ML)モデルとディープラーニング(DL)アルゴリズムの比較能力について,外挿の観点から検討した。
本稿では,MLモデルとDLモデルの両方が指数関数で学習され,学習領域外の値でテストされる経験的分析を提案する。
その結果,ディープラーニングモデルには,学習範囲を超えて一般化する固有の能力があることが示唆された。
論文 参考訳(メタデータ) (2024-03-03T21:42:55Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Learning a model is paramount for sample efficiency in reinforcement
learning control of PDEs [5.488334211013093]
RLエージェントの訓練と並行して動作モデルを学ぶことで,実システムからサンプリングしたデータ量を大幅に削減できることを示す。
また、RLトレーニングのバイアスを避けるために、モデルを反復的に更新することが重要であることも示している。
論文 参考訳(メタデータ) (2023-02-14T16:14:39Z) - On the Feasibility of Cross-Task Transfer with Model-Based Reinforcement
Learning [45.73223325256312]
最新のモデルベースRLアルゴリズムで学習した内部モデルが、新しい明らかに異なるタスクを高速に解くために活用できるかどうかを考察する。
我々は,学習世界のモデルのスケーラブルな事前学習と微調整が可能な,サンプル効率の高いオンラインRLのためのフレームワークであるModel-Based Cross-Task Transfer (XTRA)を提案する。
論文 参考訳(メタデータ) (2022-10-19T17:57:06Z) - How robust are pre-trained models to distribution shift? [82.08946007821184]
自己教師付き学習(SSL)と自己エンコーダベースモデル(AE)の相互関係が相互関係に与える影響を示す。
本研究では, 線形ヘッドの潜在バイアスから事前学習したモデルの性能を分離するために, アウト・オブ・ディストリビューション(OOD)データに基づいて訓練された線形ヘッドを用いた新しい評価手法を開発した。
論文 参考訳(メタデータ) (2022-06-17T16:18:28Z) - Reinforcement Learning as One Big Sequence Modeling Problem [84.84564880157149]
強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。
我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
論文 参考訳(メタデータ) (2021-06-03T17:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。