論文の概要: Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends
- arxiv url: http://arxiv.org/abs/2509.24203v1
- Date: Mon, 29 Sep 2025 02:34:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.697393
- Title: Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends
- Title(参考訳): Group-Relative ReINFORCEは、GRPOとその友人に関する謎を解き明かすオフ・ポリティクスのアルゴリズム
- Authors: Chaorui Yao, Yanxi Chen, Yuchang Sun, Yushuo Chen, Wenhao Zhang, Xuchen Pan, Yaliang Li, Bolin Ding,
- Abstract要約: 大規模言語モデル(LLM)の非政治強化学習が注目されている。
本稿では,特定のトレーニングデータ分布を仮定することなく,グループ化型REINFORCEの第一原理導出について述べる。
この観点は、REINFORCEを非政治的な設定に適応するための2つの一般的な原則をもたらす。
- 参考スコア(独自算出の注目度): 64.71326476563213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-policy reinforcement learning (RL) for large language models (LLMs) is attracting growing interest, driven by practical constraints in real-world applications, the complexity of LLM-RL infrastructure, and the need for further innovations of RL methodologies. While classic REINFORCE and its modern variants like Group Relative Policy Optimization (GRPO) are typically regarded as on-policy algorithms with limited tolerance of off-policyness, we present in this work a first-principles derivation for group-relative REINFORCE without assuming a specific training data distribution, showing that it admits a native off-policy interpretation. This perspective yields two general principles for adapting REINFORCE to off-policy settings: regularizing policy updates, and actively shaping the data distribution. Our analysis demystifies some myths about the roles of importance sampling and clipping in GRPO, unifies and reinterprets two recent algorithms -- Online Policy Mirror Descent (OPMD) and Asymmetric REINFORCE (AsymRE) -- as regularized forms of the REINFORCE loss, and offers theoretical justification for seemingly heuristic data-weighting strategies. Our findings lead to actionable insights that are validated with extensive empirical studies, and open up new opportunities for principled algorithm design in off-policy RL for LLMs. Source code for this work is available at https://github.com/modelscope/Trinity-RFT/tree/main/examples/rec_gsm8k.
- Abstract(参考訳): 大規模言語モデル(LLM)のためのオフ・ポリティクス強化学習(RL)は、現実のアプリケーションにおける実践的な制約、LLM-RLインフラストラクチャの複雑さ、RL方法論のさらなる革新の必要性によって、関心が高まりつつある。
古典的REINFORCEとその現代版であるGRPO(Group Relative Policy Optimization)は、通常、非政治性に制限のあるオン・ポリティクスのアルゴリズムとみなされるが、本研究では、特定のトレーニングデータ分布を仮定することなく、グループ相対REINFORCEの第一原理を導出し、ネイティブなオフ・ポリティシー解釈を認めることを示す。
この観点は、ポリシー更新を規則化し、データ配布を積極的に形作るという、REINFORCEを非政治的な設定に適応するための2つの一般的な原則を生み出します。
我々の分析は、GRPOにおける重要サンプリングとクリッピングの役割に関する神話をデミステレーションし、オンラインポリシーミラー・ダイアンス(OPMD)と非対称ReINFORCE(AsymRE)という2つの最近のアルゴリズムをREINFORCE損失の正規化形式として統合し再解釈し、一見ヒューリスティックなデータ重み付け戦略の理論的正当化を提供する。
以上の結果から,大規模な実証研究によって検証された実効性のある知見が得られ,LLMのオフポリティ・RLにおけるアルゴリズム設計の新たな機会が開かれた。
この作業のソースコードはhttps://github.com/modelscope/Trinity-RFT/tree/main/examples/rec_gsm8kで公開されている。
関連論文リスト
- RePO: Bridging On-Policy Learning and Off-Policy Knowledge through Rephrasing Policy Optimization [40.41228010377401]
本稿では、政治外の知識と政治上のRLの安定性を両立させるためのリフレージング・ポリシー・オプティマイズ(RePO)を提案する。
RePOは、独自のスタイリスティックでパラメトリックな分布に適合する軌跡に、政治外の知識を言い換える。
いくつかのベンチマークの実験では、RePOがハードサンプルの利用を改善し、既存のベースラインを上回っていることが示されている。
論文 参考訳(メタデータ) (2026-02-11T13:02:40Z) - Interpret Policies in Deep Reinforcement Learning using SILVER with RL-Guided Labeling: A Model-level Approach to High-dimensional and Multi-action Environments [3.905774454930983]
深層強化学習は優れた性能を発揮するが、解釈性に欠ける。
SILVERフレームワークは、Shapleyベースの回帰を通じてRLポリシーを説明するが、低次元のバイナリアクションドメインに限定されている。
本稿では,SILVERをマルチアクションおよび高次元環境に拡張した拡張型であるRL誘導ラベル付きSILVERを提案する。
論文 参考訳(メタデータ) (2025-10-22T05:04:43Z) - Retaining by Doing: The Role of On-Policy Data in Mitigating Forgetting [40.80967570661867]
言語モデルをポストトレーニングによって新しいタスクに適応することは、既存の能力を劣化させるリスクをもたらす。
教師付き微調整(SFT)と強化学習(RL)の2つの広く採用されているポストトレーニング手法の忘れパターンを比較した。
RLはSFTよりも忘れられがちだが、目標タスクのパフォーマンスは同等か高い。
論文 参考訳(メタデータ) (2025-10-21T17:59:41Z) - On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting [71.64063986651819]
Supervised Fine-Tuning (SFT) と Reinforcement Learning (RL) は、大規模言語モデル(LLM)の能力の強化と振る舞いの整合化のための訓練後パラダイムである。
SFTとRLを統合する既存のアプローチは、確立されたモデルパターンを混乱させ、専門家データに過度に適合させるリスクに直面することが多い。
動的重み付けによるオン・アンド・オフ・ポリティクス強化学習の制御可能な調和のためのフレームワークであるCHORDを提案する。
論文 参考訳(メタデータ) (2025-08-15T11:20:03Z) - Dynamics of Resource Allocation in O-RANs: An In-depth Exploration of On-Policy and Off-Policy Deep Reinforcement Learning for Real-Time Applications [0.6752538702870792]
本稿では、オープン無線アクセスネットワーク(O-RAN)の資源配分分野における2つのDRLモデル(オン・ポリティシーとオフ・ポリティシー)の適用について検討する。
Nessrine Hammami と Kim Khoa Nguyen の原著に触発されたこの研究は、この発見を検証し証明するための複製である。
論文 参考訳(メタデータ) (2024-11-17T17:46:40Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。