Fugu-MT 論文翻訳(概要): GEPO: Group Expectation Policy Optimization for Stable Heterogeneous Reinforcement Learning

論文の概要: GEPO: Group Expectation Policy Optimization for Stable Heterogeneous Reinforcement Learning

arxiv url: http://arxiv.org/abs/2508.17850v6
Date: Thu, 02 Oct 2025 02:13:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-03 21:54:12.768889
Title: GEPO: Group Expectation Policy Optimization for Stable Heterogeneous Reinforcement Learning
Title（参考訳）: GEPO:安定な不均一強化学習のためのグループ期待ポリシー最適化
Authors: Han Zhang, Ruibin Zheng, Zexuan Yi, Zhuo Zhang, Hanyang Peng, Hui Wang, Zike Yuan, Cai Ke, Shiwei Chen, Jiacheng Yang, Yangning Li, Xiang Li, Jiangyue Yan, Yaoqi Liu, Liwen Jing, Jiayin Qi, Ruifeng Xu, Binxing Fang, Yue Yu,
Abstract要約: パラメータ学習とロールアウトサンプリングのプロセスを分離した異種RLアーキテクチャであるHeteroRLを提案する。コアコンポーネントは、レイテンシに堅牢な非同期RLアルゴリズムであるグループ期待ポリシー最適化(GEPO)である。実験の結果、GEPOはより優れた安定性を実現しており、オンラインから1800年代までのパフォーマンス低下はわずか3%である。
参考スコア（独自算出の注目度）: 43.46954951944727
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As single-center computing approaches power constraints, decentralized training becomes essential. However, traditional Reinforcement Learning (RL) methods, crucial for enhancing large model post-training, cannot adapt to decentralized distributed training due to the tight coupling between parameter learning and rollout sampling. For this, we propose HeteroRL, a heterogeneous RL architecture that decouples these processes, enabling stable training across geographically distributed nodes connected via the Internet. The core component is Group Expectation Policy Optimization (GEPO), an asynchronous RL algorithm robust to latency caused by network delays or heterogeneity in computational resources. Our study reveals that high latency significantly increases KL divergence, leading to higher variance in importance sampling weights and training instability. GEPO mitigates this issue by using group expectation weighting to exponentially reduce the variance of importance weights, with theoretical guarantees. Experiments show that GEPO achieves superior stability, with only a 3\% performance drop from online to 1800s latency, demonstrating strong potential for decentralized RL in geographically distributed, resource-heterogeneous computing environments.
Abstract（参考訳）: シングルセンタコンピューティングが電力制約に近づくにつれ、分散トレーニングが不可欠になる。しかし、大規模モデルのポストトレーニングの強化に不可欠な従来の強化学習(RL)手法は、パラメータ学習とロールアウトサンプリングの密結合により分散分散トレーニングに適応できない。そこで本研究では,これらの処理を分離した異種RLアーキテクチャであるHeteroRLを提案する。コアコンポーネントはグループ期待ポリシー最適化(GEPO)であり、ネットワーク遅延や計算資源の不均一性に起因する遅延に頑健な非同期RLアルゴリズムである。本研究は, 高遅延はKLのばらつきを著しく増加させ, 重要サンプリング重量のばらつきとトレーニング不安定性を増大させることを明らかにした。 GEPOは、グループ期待重み付けを用いて、理論的な保証とともに重要重みの分散を指数関数的に減少させることにより、この問題を緩和する。実験の結果、GEPOは、オンラインから1800年代までの3倍のパフォーマンス低下しかなく、地理的に分散されたリソース不均一な計算環境において、分散RLの強い可能性を示す。

関連論文リスト

Multi-Agent Reinforcement Learning for Sample-Efficient Deep Neural Network Mapping [54.65536245955678]
本稿では,サンプル非効率性の課題を克服するために,分散型マルチエージェント強化学習(MARL)フレームワークを提案する。相関解析に基づいて類似のマッピングパラメータを同一エージェントに割り当てるエージェントクラスタリングアルゴリズムを提案する。実験の結果,MARL法は標準単エージェントRLよりも30～300倍効率が向上した。
論文参考訳（メタデータ） (2025-07-22T05:51:07Z)
DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [55.06360285372418]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である本研究では,2次報酬設定の下でGRPOの目的を解析し,質問レベルの難易度バイアスの固有の制限を明らかにする。差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
論文参考訳（メタデータ） (2025-05-18T11:08:32Z)
Cluster-Aware Multi-Round Update for Wireless Federated Learning in Heterogeneous Environments [25.405210975577834]
本稿では、類似したデータと通信特性を持つグループデバイスとの事前知識の類似性を活用するクラスタリング戦略を提案する。クラスタを基本単位として扱い、クラスタ化されたコントリビューションしきい値に基づいてローカル更新頻度を調整する新しいクラスタ・アウェア・マルチラウンド・アップデート(CAMU)戦略を提案する。
論文参考訳（メタデータ） (2025-05-06T02:48:48Z)
Distribution-Dependent Rates for Multi-Distribution Learning [26.38831409926518]
最近のマルチディストリビューション学習フレームワークは、環境との動的相互作用において、この目的に対処する。我々は, MDL体制における分布依存性の保証を行い, 最適値以下の差でスケールし, その結果, 試料サイズへの依存度が向上することを示した。適応型楽観的アルゴリズム LCB-DR を考案し,マルチアームバンディット文学における均一性と楽観的アロケーションのコントラストを反映した。
論文参考訳（メタデータ） (2023-12-20T15:50:16Z)
Beyond Reverse KL: Generalizing Direct Preference Optimization with Diverse Divergence Constraints [26.274786600234876]
大規模言語モデル(LLM)の能力の増大は、人工知能の機会を増大させるが、安全性の懸念を増幅する。 RLHFは、AIアライメントへの有望な経路として登場したが、複雑さと独立した報酬モデルへの依存により、課題を提起している。 DPOは代替として提案されており、逆KL正規化制約の下ではRLHFと等価である。 Jensen-Shannonの発散、forward KLの発散、$alpha$-divergencesなど、ある$f$-divergencesの下では、報酬と最適ポリシーの複雑な関係も単純化できることを示す。
論文参考訳（メタデータ） (2023-09-28T08:29:44Z)
Efficient Parallel Split Learning over Resource-constrained Wireless Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文参考訳（メタデータ） (2023-03-26T16:09:48Z)
False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。 SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文参考訳（メタデータ） (2021-10-24T15:34:03Z)
Decentralized Local Stochastic Extra-Gradient for Variational Inequalities [125.62877849447729]
我々は、不均一(非IID)で多くのデバイスに分散する問題データを持つ領域上での分散変分不等式(VIs)を考察する。我々は、完全に分散化された計算の設定を網羅する計算ネットワークについて、非常に一般的な仮定を行う。理論的には, モノトン, モノトンおよび非モノトンセッティングにおける収束速度を理論的に解析する。
論文参考訳（メタデータ） (2021-06-15T17:45:51Z)
A Decentralized Approach to Bayesian Learning [26.74338464389837]
機械学習に対する分散型アプローチを動機として,分散ランゲヴィン力学の形式を取り入れた協調学習を提案する。解析の結果,マルコフ連鎖の初期KL偏差は指数関数的に減少していることがわかった。ローカルに利用可能なデータを持つ個々のエージェントの性能は、中央集権的な設定と同等であり、レートは大幅に改善されている。
論文参考訳（メタデータ） (2020-07-14T03:59:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。