論文の概要: SOUP: Token-level Single-sample Mix-policy Reinforcement Learning for Large Language Models
- arxiv url: http://arxiv.org/abs/2601.21476v1
- Date: Thu, 29 Jan 2026 09:56:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.718301
- Title: SOUP: Token-level Single-sample Mix-policy Reinforcement Learning for Large Language Models
- Title(参考訳): SOUP:大規模言語モデルのためのトークンレベルの単一サンプル混合政治強化学習
- Authors: Lei Yang, Wei Bi, Chenxi Sun, Renren Jin, Deyi Xiong,
- Abstract要約: SOUPは、トークンレベルで個々のサンプル内でオフとオンの学習を統合するフレームワークである。
標準のオン・ポリティクス・トレーニングと既存のオフ・ポリティクス・エクステンションを一貫して上回っている。
- 参考スコア(独自算出の注目度): 67.41779761651924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On-policy reinforcement learning (RL) methods widely used for language model post-training, like Group Relative Policy Optimization (GRPO), often suffer from limited exploration and early saturation due to low sampling diversity. While off-policy data can help, current approaches that mix entire trajectories cause significant policy mismatch and instability. In this work, we propose the $\textbf{S}$ingle-sample Mix-p$\textbf{O}$licy $\textbf{U}$nified $\textbf{P}$aradigm (SOUP), a framework that unifies off- and on-policy learning within individual samples at the token level. It confines off-policy influence to the prefix of a generated sequence sampled from historical policies, while the continuation is generated on-policy. Through token-level importance ratios, SOUP effectively leverages off-policy information while preserving training stability. Extensive experiments demonstrate that SOUP consistently outperforms standard on-policy training and existing off-policy extensions. Our further analysis clarifies how our fine-grained, single-sample mix-policy training can improve both exploration and final performance in LLM RL.
- Abstract(参考訳): グループ相対政策最適化(GRPO)のような言語モデル後訓練に広く用いられているオンライン強化学習(RL)法は、サンプリングの多様性が低いため、探索や早期飽和に悩まされることが多い。
政策外のデータは役立つが、トラジェクトリ全体を混在させる現在のアプローチは、政策ミスマッチと不安定を著しく引き起こす。
本研究では,トークンレベルにおける個々のサンプルのオフ・オン・ポリティクス学習を統一するフレームワークである$\textbf{S}$ingle-sample Mix-p$\textbf{O}$licy $\textbf{U}$nified $\textbf{P}$aradigm (SOUP)を提案する。
これは、歴史的政策からサンプリングされた生成されたシーケンスのプレフィックスに、政治以外の影響を限定し、その継続は、政治上で生成される。
トークンレベルの重要度比を通じて、SOUPはトレーニング安定性を維持しながら、外部の情報を効果的に活用する。
大規模な実験により、SOUPは標準的なオン・ポリティクス・トレーニングと既存のオフ・ポリティクス・エクステンションを一貫して上回っていることが示される。
さらなる分析により,LLM RLの探索と最終性能の両面において,粒度の細かい単一サンプル混合政治学習がいかに向上するかが明らかとなった。
関連論文リスト
- Coverage Improvement and Fast Convergence of On-policy Preference Learning [67.36750525893514]
言語モデルアライメントのためのオンラインのオンラインプライオリティ学習アルゴリズムは、オフラインのアルゴリズムよりも大幅に優れている。
我々は,サンプリング政策の包括的範囲が政治訓練を通じてどのように進展するかを分析する。
一般機能クラス設定における報奨蒸留のための原則的オンライン方式を開発した。
論文 参考訳(メタデータ) (2026-01-13T10:46:06Z) - On-Policy RL with Optimal Reward Baseline [109.47676554514193]
On-Policy RL with Optimal reward baseline (OPO) は、新しい簡易強化学習アルゴリズムである。
OPOは、訓練プロセスを実証的に安定化し、探索を強化する、正確なオンライントレーニングの重要性を強調している。
その結果、OPOの優れた性能と訓練安定性を、追加のモデルや正規化条件なしで示すことができた。
論文 参考訳(メタデータ) (2025-05-29T15:58:04Z) - Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning [55.15106182268834]
検証可能な報奨付き強化学習(RLVR)が,大規模言語モデルにおける推論能力向上のための主要なアプローチとして登場した。
ロールアウト生成は恥ずかしく並列であり、メモリライトであるのに対して、ポリシー更新は通信量が多く、メモリ集約的である。
PODS(Policy Optimization with Down-Sampling)を導入し、戦略的に選択されたロールアウトサブセットでのみトレーニングすることで、ポリシー更新からロールアウト生成を分離する。
論文 参考訳(メタデータ) (2025-04-18T17:49:55Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - On-Policy Policy Gradient Reinforcement Learning Without On-Policy Sampling [3.5253513747455303]
そこで本稿では,オンラインポリシー勾配アルゴリズムのデータ効率向上のための適応型オフポリシーサンプリング手法を提案する。
我々の手法であるPROPS(Proximal Robust On-Policy Smpling)は,データ収集によるサンプリング誤差を低減する。
論文 参考訳(メタデータ) (2023-11-14T16:37:28Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。