論文の概要: Group Expectation Policy Optimization for Stable Heterogeneous Reinforcement Learning in LLMs
- arxiv url: http://arxiv.org/abs/2508.17850v1
- Date: Mon, 25 Aug 2025 09:57:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.716958
- Title: Group Expectation Policy Optimization for Stable Heterogeneous Reinforcement Learning in LLMs
- Title(参考訳): LLMにおける安定な不均一強化学習のためのグループ期待ポリシー最適化
- Authors: Han Zhang, Ruibin Zheng, Zexuan Yi, Hanyang Peng, Hui Wang, Yue Yu,
- Abstract要約: 本稿では,パラメータ学習からロールアウトサンプリングを分離する非同期RLアーキテクチャであるHeteroRLを提案する。
1800秒の遅延で性能劣化を3%以下に抑えながら,GRPOなどの手法よりも優れた安定性を保っていることを示す。
- 参考スコア(独自算出の注目度): 14.477463907585884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As single-center computing approaches power constraints, decentralized training is becoming essential. Reinforcement Learning (RL) post-training enhances Large Language Models (LLMs) but faces challenges in heterogeneous distributed environments due to its tightly-coupled sampling-learning alternation. We propose HeteroRL, an asynchronous RL architecture that decouples rollout sampling from parameter learning, enabling robust deployment across geographically distributed nodes under network delays. We identify that latency-induced KL divergence causes importance sampling failure due to high variance. To address this, we propose Group Expectation Policy Optimization (GEPO), which reduces importance weight variance through a refined sampling mechanism. Theoretically, GEPO achieves exponential variance reduction. Experiments show it maintains superior stability over methods like GRPO, with less than 3% performance degradation under 1800-second delays, demonstrating strong potential for decentralized RL in heterogeneous networks.
- Abstract(参考訳): シングルセンターコンピューティングが電力制約に近づくにつれ、分散トレーニングが不可欠になりつつある。
強化学習 (Reinforcement Learning, RL) は大規模言語モデル (LLM) を強化するが, 厳密に結合したサンプリング学習の変更により, 異種分散環境における課題に直面する。
本稿では,パラメータ学習からロールアウトサンプリングを分離する非同期RLアーキテクチャであるHeteroRLを提案する。
遅延誘起KL分散は,高分散に起因するサンプリング障害の原因となる。
そこで本研究では,改良されたサンプリング機構によって重み付けの分散を低減するグループ期待ポリシ最適化(GEPO)を提案する。
理論的には、GEPOは指数的分散還元を達成する。
実験により、GRPOのような手法よりも優れた安定性を示し、1800秒の遅延で3%未満の性能劣化を示し、異種ネットワークにおける分散RLの強い可能性を示している。
関連論文リスト
- Multi-Agent Reinforcement Learning for Sample-Efficient Deep Neural Network Mapping [54.65536245955678]
本稿では,サンプル非効率性の課題を克服するために,分散型マルチエージェント強化学習(MARL)フレームワークを提案する。
相関解析に基づいて類似のマッピングパラメータを同一エージェントに割り当てるエージェントクラスタリングアルゴリズムを提案する。
実験の結果,MARL法は標準単エージェントRLよりも30~300倍効率が向上した。
論文 参考訳(メタデータ) (2025-07-22T05:51:07Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [55.06360285372418]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
本研究では,2次報酬設定の下でGRPOの目的を解析し,質問レベルの難易度バイアスの固有の制限を明らかにする。
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z) - Cluster-Aware Multi-Round Update for Wireless Federated Learning in Heterogeneous Environments [25.405210975577834]
本稿では、類似したデータと通信特性を持つグループデバイスとの事前知識の類似性を活用するクラスタリング戦略を提案する。
クラスタを基本単位として扱い、クラスタ化されたコントリビューションしきい値に基づいてローカル更新頻度を調整する新しいクラスタ・アウェア・マルチラウンド・アップデート(CAMU)戦略を提案する。
論文 参考訳(メタデータ) (2025-05-06T02:48:48Z) - Distribution-Dependent Rates for Multi-Distribution Learning [26.38831409926518]
最近のマルチディストリビューション学習フレームワークは、環境との動的相互作用において、この目的に対処する。
我々は, MDL体制における分布依存性の保証を行い, 最適値以下の差でスケールし, その結果, 試料サイズへの依存度が向上することを示した。
適応型楽観的アルゴリズム LCB-DR を考案し,マルチアームバンディット文学における均一性と楽観的アロケーションのコントラストを反映した。
論文 参考訳(メタデータ) (2023-12-20T15:50:16Z) - Beyond Reverse KL: Generalizing Direct Preference Optimization with
Diverse Divergence Constraints [26.274786600234876]
大規模言語モデル(LLM)の能力の増大は、人工知能の機会を増大させるが、安全性の懸念を増幅する。
RLHFは、AIアライメントへの有望な経路として登場したが、複雑さと独立した報酬モデルへの依存により、課題を提起している。
DPOは代替として提案されており、逆KL正規化制約の下ではRLHFと等価である。
Jensen-Shannonの発散、forward KLの発散、$alpha$-divergencesなど、ある$f$-divergencesの下では、報酬と最適ポリシーの複雑な関係も単純化できることを示す。
論文 参考訳(メタデータ) (2023-09-28T08:29:44Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Decentralized Local Stochastic Extra-Gradient for Variational
Inequalities [125.62877849447729]
我々は、不均一(非IID)で多くのデバイスに分散する問題データを持つ領域上での分散変分不等式(VIs)を考察する。
我々は、完全に分散化された計算の設定を網羅する計算ネットワークについて、非常に一般的な仮定を行う。
理論的には, モノトン, モノトンおよび非モノトンセッティングにおける収束速度を理論的に解析する。
論文 参考訳(メタデータ) (2021-06-15T17:45:51Z) - A Decentralized Approach to Bayesian Learning [26.74338464389837]
機械学習に対する分散型アプローチを動機として,分散ランゲヴィン力学の形式を取り入れた協調学習を提案する。
解析の結果,マルコフ連鎖の初期KL偏差は指数関数的に減少していることがわかった。
ローカルに利用可能なデータを持つ個々のエージェントの性能は、中央集権的な設定と同等であり、レートは大幅に改善されている。
論文 参考訳(メタデータ) (2020-07-14T03:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。