Fugu-MT 論文翻訳(概要): Group Expectation Policy Optimization for Heterogeneous Reinforcement Learning

論文の概要: Group Expectation Policy Optimization for Heterogeneous Reinforcement Learning

arxiv url: http://arxiv.org/abs/2508.17850v3
Date: Thu, 11 Sep 2025 08:48:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-12 11:47:11.857632
Title: Group Expectation Policy Optimization for Heterogeneous Reinforcement Learning
Title（参考訳）: 不均一強化学習のためのグループ期待ポリシー最適化
Authors: Han Zhang, Ruibin Zheng, Zexuan Yi, Zhuo Zhang, Hanyang Peng, Hui Wang, Zike Yuan, Cai Ke, Shiwei Chen, Jiacheng Yang, Yangning Li, Xiang Li, Jiangyue Yan, Yaoqi Liu, Liwen Jing, Jiayin Qi, Ruifeng Xu, Binxing Fang, Yue Yu,
Abstract要約: 本稿では,パラメータ学習からロールアウトサンプリングを分離する非同期RLアーキテクチャであるHeteroRLを提案する。 1800秒の遅延で性能劣化を3%以下に抑えながら,GRPOなどの手法よりも優れた安定性を保っていることを示す。
参考スコア（独自算出の注目度）: 43.46954951944727
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As single-center computing approaches power constraints, decentralized training is becoming essential. Reinforcement Learning (RL) post-training enhances Large Language Models (LLMs) but faces challenges in heterogeneous distributed environments due to its tightly-coupled sampling-learning alternation. We propose HeteroRL, an asynchronous RL architecture that decouples rollout sampling from parameter learning, enabling robust deployment across geographically distributed nodes under network delays. We identify that latency-induced KL divergence causes importance sampling failure due to high variance. To address this, we propose Group Expectation Policy Optimization (GEPO), which reduces importance weight variance through a refined sampling mechanism. Theoretically, GEPO achieves exponential variance reduction. Experiments show it maintains superior stability over methods like GRPO, with less than 3% performance degradation under 1800-second delays, demonstrating strong potential for decentralized RL in heterogeneous networks.
Abstract（参考訳）: シングルセンターコンピューティングが電力制約に近づくにつれ、分散トレーニングが不可欠になりつつある。強化学習 (Reinforcement Learning, RL) は大規模言語モデル (LLM) を強化するが, 厳密に結合したサンプリング学習の変更により, 異種分散環境における課題に直面する。本稿では,パラメータ学習からロールアウトサンプリングを分離する非同期RLアーキテクチャであるHeteroRLを提案する。遅延誘起KL分散は,高分散に起因するサンプリング障害の原因となる。そこで本研究では,改良されたサンプリング機構によって重み付けの分散を低減するグループ期待ポリシ最適化(GEPO)を提案する。理論的には、GEPOは指数的分散還元を達成する。実験により、GRPOのような手法よりも優れた安定性を示し、1800秒の遅延で3%未満の性能劣化を示し、異種ネットワークにおける分散RLの強い可能性を示している。

関連論文リスト

Harnessing Implicit Cooperation: A Multi-Agent Reinforcement Learning Approach Towards Decentralized Local Energy Markets [41.99844472131922]
分散エージェントは、明示的なピアツーピア通信なしで、ローカルエネルギー市場における最適調整を近似することができる。スティグマイシンシグナリングは複雑なグリッドコーディネートに十分なコンテキストを提供し、高価な集中型通信インフラに代わる堅牢でプライバシー保護の代替を提供する。
論文参考訳（メタデータ） (2026-02-17T22:22:32Z)
Consolidation or Adaptation? PRISM: Disentangling SFT and RL Data via Gradient Concentration [56.074760766965085]
PRISMは、モデルの既存の知識との認知的対立度に基づいてデータを調停する動的認識フレームワークを実現する。この結果から,内部最適化方式に基づくデータ分離が,スケーラブルでロバストなエージェントアライメントに不可欠であることが示唆された。
論文参考訳（メタデータ） (2026-01-12T05:43:20Z)
Multi-Agent Reinforcement Learning for Sample-Efficient Deep Neural Network Mapping [54.65536245955678]
本稿では,サンプル非効率性の課題を克服するために,分散型マルチエージェント強化学習(MARL)フレームワークを提案する。相関解析に基づいて類似のマッピングパラメータを同一エージェントに割り当てるエージェントクラスタリングアルゴリズムを提案する。実験の結果,MARL法は標準単エージェントRLよりも30～300倍効率が向上した。
論文参考訳（メタデータ） (2025-07-22T05:51:07Z)
Synergizing Reinforcement Learning and Genetic Algorithms for Neural Combinatorial Optimization [25.633698252033756]
本稿では,DRLの学習効率をGAのグローバル検索能力と相乗化するための進化的拡張機構を提案する。 EAMは、学習されたポリシーからソリューションを生成し、クロスオーバーや突然変異といったドメイン固有の遺伝子操作によってそれらを精製することで機能する。 EAMは、アテンションモデル、POMO、SymNCOのような最先端のDRLソルバとシームレスに統合できる。
論文参考訳（メタデータ） (2025-06-11T05:17:30Z)
DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [55.06360285372418]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である本研究では,2次報酬設定の下でGRPOの目的を解析し,質問レベルの難易度バイアスの固有の制限を明らかにする。差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
論文参考訳（メタデータ） (2025-05-18T11:08:32Z)
Cluster-Aware Multi-Round Update for Wireless Federated Learning in Heterogeneous Environments [25.405210975577834]
本稿では、類似したデータと通信特性を持つグループデバイスとの事前知識の類似性を活用するクラスタリング戦略を提案する。クラスタを基本単位として扱い、クラスタ化されたコントリビューションしきい値に基づいてローカル更新頻度を調整する新しいクラスタ・アウェア・マルチラウンド・アップデート(CAMU)戦略を提案する。
論文参考訳（メタデータ） (2025-05-06T02:48:48Z)
OmniLearn: A Framework for Distributed Deep Learning over Heterogeneous Clusters [1.4131700241686853]
異種資源の影響を軽減するため,OmniLearnという適応型バッチスケーリングフレームワークを開発した。当社のアプローチは、異種サーバ間のバランスをとるための比例的なコントローラにインスパイアされ、さまざまなリソースの可用性の下で動作します。
論文参考訳（メタデータ） (2025-03-21T18:26:24Z)
You Are Your Own Best Teacher: Achieving Centralized-level Performance in Federated Learning under Heterogeneous and Long-tailed Data [54.56492110703343]
局所的な非IIDデータとグローバルな長期分布から生ずるデータ不均一性は、連邦学習(FL)における大きな課題である弱い局所サンプルと強い局所サンプルの知識を蒸留し,表現学習を改善するためにFedYoYoを提案する。我々は、FedYoYoが最先端の結果を達成し、グローバルな長期的設定の下で集中ロジット調整手法を5.4%超えたことを示します。
論文参考訳（メタデータ） (2025-03-10T04:57:20Z)
SCALE: Self-regulated Clustered federAted LEarning in a Homogeneous Environment [4.925906256430176]
フェデレートラーニング(FL)は、ユーザのプライバシを維持しながら、分散機械学習を実現するための変革的なアプローチとして登場した。本稿では,エッジサーバへの依存を排除し,これらの制約を克服する新しいFL手法を提案する。
論文参考訳（メタデータ） (2024-07-25T20:42:16Z)
Distribution-Dependent Rates for Multi-Distribution Learning [26.38831409926518]
最近のマルチディストリビューション学習フレームワークは、環境との動的相互作用において、この目的に対処する。我々は, MDL体制における分布依存性の保証を行い, 最適値以下の差でスケールし, その結果, 試料サイズへの依存度が向上することを示した。適応型楽観的アルゴリズム LCB-DR を考案し,マルチアームバンディット文学における均一性と楽観的アロケーションのコントラストを反映した。
論文参考訳（メタデータ） (2023-12-20T15:50:16Z)
Beyond Reverse KL: Generalizing Direct Preference Optimization with Diverse Divergence Constraints [26.274786600234876]
大規模言語モデル(LLM)の能力の増大は、人工知能の機会を増大させるが、安全性の懸念を増幅する。 RLHFは、AIアライメントへの有望な経路として登場したが、複雑さと独立した報酬モデルへの依存により、課題を提起している。 DPOは代替として提案されており、逆KL正規化制約の下ではRLHFと等価である。 Jensen-Shannonの発散、forward KLの発散、$alpha$-divergencesなど、ある$f$-divergencesの下では、報酬と最適ポリシーの複雑な関係も単純化できることを示す。
論文参考訳（メタデータ） (2023-09-28T08:29:44Z)
Efficient Parallel Split Learning over Resource-constrained Wireless Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文参考訳（メタデータ） (2023-03-26T16:09:48Z)
Heterogeneous Federated Learning via Grouped Sequential-to-Parallel Training [60.892342868936865]
フェデレートラーニング(Federated Learning, FL)は、プライバシ保護のためのコラボレーション機械学習パラダイムである。本稿では,この課題に対処するため,データヘテロジニアス・ロバストFLアプローチであるFedGSPを提案する。その結果,FedGSPは7つの最先端アプローチと比較して平均3.7%の精度向上を実現していることがわかった。
論文参考訳（メタデータ） (2022-01-31T03:15:28Z)
False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。 SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文参考訳（メタデータ） (2021-10-24T15:34:03Z)
Decentralized Local Stochastic Extra-Gradient for Variational Inequalities [125.62877849447729]
我々は、不均一(非IID)で多くのデバイスに分散する問題データを持つ領域上での分散変分不等式(VIs)を考察する。我々は、完全に分散化された計算の設定を網羅する計算ネットワークについて、非常に一般的な仮定を行う。理論的には, モノトン, モノトンおよび非モノトンセッティングにおける収束速度を理論的に解析する。
論文参考訳（メタデータ） (2021-06-15T17:45:51Z)
Combining Pessimism with Optimism for Robust and Efficient Model-Based Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-18T16:50:17Z)
A Decentralized Approach to Bayesian Learning [26.74338464389837]
機械学習に対する分散型アプローチを動機として,分散ランゲヴィン力学の形式を取り入れた協調学習を提案する。解析の結果,マルコフ連鎖の初期KL偏差は指数関数的に減少していることがわかった。ローカルに利用可能なデータを持つ個々のエージェントの性能は、中央集権的な設定と同等であり、レートは大幅に改善されている。
論文参考訳（メタデータ） (2020-07-14T03:59:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。