論文の概要: Efficient RL Training for LLMs with Experience Replay
- arxiv url: http://arxiv.org/abs/2604.08706v1
- Date: Thu, 09 Apr 2026 18:56:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.542786
- Title: Efficient RL Training for LLMs with Experience Replay
- Title(参考訳): 経験的リプレイによるLDMの効率的なRL学習
- Authors: Charles Arnal, Vivien Cabannes, Taco Cohen, Julia Kempe, Remi Munos,
- Abstract要約: 良く設計されたリプレイバッファは、劣化することなく、推論計算を大幅に削減できることを示す。
良く設計されたリプレイバッファは、劣化することなく、推論計算を大幅に削減できることを示す。
- 参考スコア(独自算出の注目度): 33.7477995016327
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While Experience Replay - the practice of storing rollouts and reusing them multiple times during training - is a foundational technique in general RL, it remains largely unexplored in LLM post-training due to the prevailing belief that fresh, on-policy data is essential for high performance. In this work, we challenge this assumption. We present a systematic study of replay buffers for LLM post-training, formalizing the optimal design as a trade-off between staleness-induced variance, sample diversity and the high computational cost of generation. We show that strict on-policy sampling is suboptimal when generation is expensive. Empirically, we show that a well-designed replay buffer can drastically reduce inference compute without degrading - and in some cases even improving - final model performance, while preserving policy entropy.
- Abstract(参考訳): Experience Replay – ロールアウトを保存し、トレーニング中に何度も再利用するプラクティス – は、一般的には基礎的なテクニックだが、新鮮でオン・ポリティクスなデータがハイパフォーマンスに不可欠であるという考えから、LLMのポストトレーニングでは、ほとんど検討されていない。
この研究では、この仮定に挑戦する。
本研究では,LLM後処理のためのリプレイバッファの体系的研究を行い,安定化に伴う分散,サンプルの多様性,高計算コストのトレードオフとして最適設計を定式化した。
生産コストが高い場合には、厳格なオンラインサンプリングが最適以下であることが示される。
経験的に、よく設計されたリプレイバッファは、ポリシーのエントロピーを保ちながら、最終的なモデル性能を改善することなく、推論計算を大幅に削減できることを示す。
関連論文リスト
- Reuse your FLOPs: Scaling RL on Hard Problems by Conditioning on Very Off-Policy Prefixes [22.721425502443253]
我々はPrefixRLを導入し、そこでは、成功裏のトレースのプレフィックスを条件にし、それらを完了させるために、オンデマンドのRLを実行します。
PrefixRLは、問題の難易度を政治外接頭辞の長さで調節することで、難しい問題に対する学習信号を強化する。
我々はPrefixRLの目的が標準RLの目的と一致しているだけでなく、より効率的なことを証明する。
論文 参考訳(メタデータ) (2026-01-26T18:57:00Z) - Just-In-Time Reinforcement Learning: Continual Learning in LLM Agents Without Gradient Updates [53.3717573880076]
JitRL(Just-In-Time Reinforcement Learning、ジャスト・イン・タイム強化学習)は、テスト時間ポリシーの最適化を可能にするトレーニング不要のフレームワークである。
JitRLは、経験の動的で非パラメトリックな記憶を維持し、関連する軌跡を取得して、オンザフライでのアクションの利点を推定する。
WebArenaとJerrichoの実験では、JitRLがトレーニング不要メソッドの間に新しい最先端技術を確立していることが示されている。
論文 参考訳(メタデータ) (2026-01-26T14:16:51Z) - Stabilizing Reinforcement Learning with LLMs: Formulation and Practices [61.361819972410046]
本稿では,REINFORCEなどの政策勾配法において,真のシーケンスレベルの報酬を代用トークンレベルの目的によって最適化できる理由と条件を示す。
この洞察は、RLトレーニングの安定化において、広く採用されているいくつかのテクニックの重要な役割について、原則化された説明を提供する。
論文 参考訳(メタデータ) (2025-12-01T07:45:39Z) - The Courage to Stop: Overcoming Sunk Cost Fallacy in Deep Reinforcement Learning [19.01686700722506]
オフ政治深層学習(RL)は、通常、学習中に過去の経験を再利用するためにリプレイバッファを利用する。
このような非形式的で無駄なトランジションをサンプリングすることは、沈むコストの低下に対処することで回避できる、と我々は主張する。
本稿では,戦略的早期終了を可能にする軽量なメカニズムであるLearning to Stop (LEAST)を提案する。
論文 参考訳(メタデータ) (2025-06-16T16:30:00Z) - Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training [71.16258800411696]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)のポストトレーニングにおいて重要な要素である。
ポストトレーニングに使われている既存のオンラインアルゴリズムは、経験的リプレイバッファの使用と本質的に相容れない。
本稿では,TBA(Trajectory Balance with Asynchrony)によるバッファの再生を効率よく行うことを提案する。
論文 参考訳(メタデータ) (2025-03-24T17:51:39Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Stratified Experience Replay: Correcting Multiplicity Bias in Off-Policy
Reinforcement Learning [17.3794999533024]
深部RLは異常なデータの存在に苦慮しているように見える。
近年の研究では、DQN(Deep Q-Network)の性能はリプレイメモリが大きすぎると劣化することが示された。
我々は,リプレイメモリ上で一様にサンプリングする動機を再検討し,関数近似を用いた場合の欠陥を見出した。
論文 参考訳(メタデータ) (2021-02-22T19:29:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。