論文の概要: DyJR: Preserving Diversity in Reinforcement Learning with Verifiable Rewards via Dynamic Jensen-Shannon Replay
- arxiv url: http://arxiv.org/abs/2603.16157v1
- Date: Tue, 17 Mar 2026 06:20:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.126503
- Title: DyJR: Preserving Diversity in Reinforcement Learning with Verifiable Rewards via Dynamic Jensen-Shannon Replay
- Title(参考訳): DyJR:動的ジェンセン・シャノンリプレイによる検証可能なリワードによる強化学習における多様性の保存
- Authors: Long Li, Zhijian Zhou, Tianyi Wang, Weidi Xu, Zuming Huang, Wei Chu, Zhe Wang, Shirui Pan, Chao Qu, Yuan Qi,
- Abstract要約: 既存のエクスペリエンスリプレイメソッドは、直接ポリシー更新のための正確なサンプルを再利用することで、この問題に対処する。
歴史的データは単に正確性を強化するのではなく、持続的な多様性を優先すべきである、と我々は主張する。
本稿では,シンプルで効果的な正規化フレームワークであるLEPJRを提案する。
- 参考スコア(独自算出の注目度): 57.80564154223355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Reinforcement Learning (RL) enhances Large Language Model reasoning, on-policy algorithms like GRPO are sample-inefficient as they discard past rollouts. Existing experience replay methods address this by reusing accurate samples for direct policy updates, but this often incurs high computational costs and causes mode collapse via overfitting. We argue that historical data should prioritize sustaining diversity rather than simply reinforcing accuracy. To this end, we propose Dynamic Jensen-Shannon Replay (DyJR), a simple yet effective regularization framework using a dynamic reference distribution from recent trajectories. DyJR introduces two innovations: (1) A Time-Sensitive Dynamic Buffer that uses FIFO and adaptive sizing to retain only temporally proximal samples, synchronizing with model evolution; and (2) Jensen-Shannon Divergence Regularization, which replaces direct gradient updates with a distributional constraint to prevent diversity collapse. Experiments on mathematical reasoning and Text-to-SQL benchmarks demonstrate that DyJR significantly outperforms GRPO as well as baselines such as RLEP and Ex-GRPO, while maintaining training efficiency comparable to the original GRPO. Furthermore, from the perspective of Rank-$k$ token probability evolution, we show that DyJR enhances diversity and mitigates over-reliance on Rank-1 tokens, elucidating how specific sub-modules of DyJR influence the training dynamics.
- Abstract(参考訳): Reinforcement Learning (RL)は、大規模言語モデルの推論を強化するが、GRPOのようなオンポリティクスアルゴリズムは、過去のロールアウトを捨てる際に、サンプル非効率である。
既存の経験リプレイ手法は、直接ポリシー更新のための正確なサンプルを再利用することでこの問題に対処するが、これはしばしば高い計算コストを発生させ、オーバーフィッティングによるモード崩壊を引き起こす。
歴史的データは単に正確性を強化するのではなく、持続的な多様性を優先すべきである、と我々は主張する。
この目的のために,最近の軌道からの動的参照分布を用いたシンプルで効果的な正規化フレームワークであるDynamic Jensen-Shannon Replay (DyJR)を提案する。
DyJRは, 時間知覚動的バッファ(FIFO)と適応サイズ(アダプティブサイズ)を用いて, 時間的近位標本のみを保持し, モデル進化と同期させる)と, 直接勾配更新を分散制約に置き換え, 多様性の崩壊を防ぐJensen-Shannon分散正規化(Jensen-Shannon Divergence Regularization)の2つのイノベーションを導入している。
数学的推論とText-to-SQLベンチマークの実験により、DyJRはオリジナルのGRPOに匹敵するトレーニング効率を維持しながら、GRPOとRLEPやEx-GRPOのようなベースラインを著しく上回っていることが示された。
さらに、Ranc-k$トークン確率の進化の観点から、DyJRは多様性を高め、Ranc-1トークンの過度信頼を緩和し、DyJRの特定のサブモジュールがトレーニングダイナミクスにどのように影響するかを明らかにする。
関連論文リスト
- Dynamic Rank Reinforcement Learning for Adaptive Low-Rank Multi-Head Self Attention in Large Language Models [0.0]
大規模言語モデル(LLM)におけるマルチヘッド自己認識(MHSA)の低ランク分解を適応的に最適化する新しいフレームワークである動的ランク強化学習(DR-RL)を提案する。
DR-RLは、浮動小数点演算(FLOP)を著しく低減しつつ、フルランクアテンションと統計的に等価な下流精度を維持している
この研究は、MHSAの適応効率と理論的厳密さのギャップを埋め、リソース制約の深層学習におけるランク低減技術に代えて、原理的に数学的に基礎付けられた代替手段を提供する。
論文 参考訳(メタデータ) (2025-12-17T21:09:19Z) - G$^2$RPO: Granular GRPO for Precise Reward in Flow Models [74.21206048155669]
本稿では,サンプリング方向の高精度かつ包括的な報酬評価を実現する新しいグラニュラー-GRPO(G$2$RPO)フレームワークを提案する。
複数の拡散スケールで計算された利点を集約するマルチグラニュラリティ・アドバンテージ・インテグレーション・モジュールを導入する。
G$2$RPOは既存のフローベースGRPOベースラインを著しく上回る。
論文 参考訳(メタデータ) (2025-10-02T12:57:12Z) - Flow-GRPO: Training Flow Matching Models via Online RL [80.62659379624867]
本稿では,オンライン政策強化学習をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では,(1)決定論的正規微分方程式を同値な微分方程式に変換するODE-to-SDE変換と,(2)推論ステップの数を維持しながらトレーニングの段階を短縮するDenoising Reduction戦略の2つの主要な戦略を用いる。
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z) - A Distribution-Aware Flow-Matching for Generating Unstructured Data for Few-Shot Reinforcement Learning [1.0709300917082865]
数発の強化学習のための合成非構造化データを生成するための分布認識フローマッチング手法を提案する。
我々のアプローチは、オーバーフィッティングやデータ相関など、従来のモデルベースRLにおける重要な課題に対処する。
提案手法は,初期タイムスタンプのフレームレートを30%向上させながら,最大Q値で安定した収束を実現することを示す。
論文 参考訳(メタデータ) (2024-09-21T15:50:59Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。