論文の概要: Asynchronous Policy Gradient Aggregation for Efficient Distributed Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.24305v1
- Date: Mon, 29 Sep 2025 05:38:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.766995
- Title: Asynchronous Policy Gradient Aggregation for Efficient Distributed Reinforcement Learning
- Title(参考訳): 効率的な分散強化学習のための非同期ポリシー勾配アグリゲーション
- Authors: Alexander Tyurin, Andrei Spiridonov, Varvara Rudenko,
- Abstract要約: 本稿では非同期ポリシー勾配アグリゲーションを実装したRennala NIGTとMalenia NIGTという2つの新しいアルゴリズムを紹介する。
同質な設定では、Rennala NIGTはAllReduce操作をサポートしながら、計算と通信の合計複雑性を良好に改善する。
不均質な環境では、Malenia NIGTは非同期計算と不均質な環境を厳密な理論上の保証で同時に扱う。
- 参考スコア(独自算出の注目度): 55.50683337004406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study distributed reinforcement learning (RL) with policy gradient methods under asynchronous and parallel computations and communications. While non-distributed methods are well understood theoretically and have achieved remarkable empirical success, their distributed counterparts remain less explored, particularly in the presence of heterogeneous asynchronous computations and communication bottlenecks. We introduce two new algorithms, Rennala NIGT and Malenia NIGT, which implement asynchronous policy gradient aggregation and achieve state-of-the-art efficiency. In the homogeneous setting, Rennala NIGT provably improves the total computational and communication complexity while supporting the AllReduce operation. In the heterogeneous setting, Malenia NIGT simultaneously handles asynchronous computations and heterogeneous environments with strictly better theoretical guarantees. Our results are further corroborated by experiments, showing that our methods significantly outperform prior approaches.
- Abstract(参考訳): 非同期および並列計算および通信におけるポリシ勾配法による分散強化学習(RL)について検討する。
非分散手法は理論上はよく理解されており、経験的成功をおさめたが、その分散手法は、特に異種非同期計算や通信ボトルネックの存在下では、まだ研究が進んでいない。
本稿では,非同期ポリシグラデーションアグリゲーションを実装し,最先端の効率を実現する2つの新しいアルゴリズムであるRennala NIGTとMalenia NIGTを紹介する。
同質な設定では、Rennala NIGTはAllReduce操作をサポートしながら、計算と通信の合計複雑性を良好に改善する。
不均質な環境では、Malenia NIGTは非同期計算と不均質な環境を厳密な理論上の保証で同時に扱う。
実験の結果,提案手法が先行手法よりも優れていたことが示唆された。
関連論文リスト
- Preference-Based Multi-Agent Reinforcement Learning: Data Coverage and Algorithmic Techniques [65.55451717632317]
PbMARL(Preference-based Multi-Agent Reinforcement Learning)について検討する。
一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ平衡を同定する。
以上の結果から,PbMARLの多面的アプローチが示唆された。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - Neural Conditional Probability for Uncertainty Quantification [22.951644463554352]
条件分布の学習に対する演算子理論的アプローチであるニューラル条件確率(NCP)を導入する。
ニューラルネットワークの近似能力を活用することで、NCPは様々な複合プレックス確率分布を効率的に扱うことができる。
実験では,2層ネットワークを持つNCPが先行手法に適合するか,あるいは性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-07-01T10:44:29Z) - Momentum for the Win: Collaborative Federated Reinforcement Learning across Heterogeneous Environments [17.995517050546244]
我々は、フェデレート強化学習(FRL)問題を探り、N$エージェントが共通の方針を、軌跡データを共有せずに共同で学習する。
平均性能関数の定常点に収束するFedSVRPG-MとFedHAPG-Mの2つのアルゴリズムを提案する。
我々のアルゴリズムはエージェント数に関して線形収束の高速化を享受しており、共通ポリシーを見つける上でのエージェント間の協調の利点を強調している。
論文 参考訳(メタデータ) (2024-05-29T20:24:42Z) - AsGrad: A Sharp Unified Analysis of Asynchronous-SGD Algorithms [45.90015262911875]
不均一な環境で分散SGDのための非同期型アルゴリズムを解析する。
また,本分析の副産物として,ランダムなきついSGDのような勾配型アルゴリズムの保証を示す。
論文 参考訳(メタデータ) (2023-10-31T13:44:53Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - First-Order Algorithms for Nonlinear Generalized Nash Equilibrium
Problems [88.58409977434269]
非線形一般化ナッシュ均衡問題(NGNEP)における平衡計算の問題を考える。
我々の貢献は、2次ペナルティ法と拡張ラグランジアン法に基づく2つの単純な一階アルゴリズムフレームワークを提供することである。
これらのアルゴリズムに対する漸近的理論的保証を提供する。
論文 参考訳(メタデータ) (2022-04-07T00:11:05Z) - Asynchronous Iterations in Optimization: New Sequence Results and
Sharper Algorithmic Guarantees [10.984101749941471]
並列および分散最適化アルゴリズムの解析に現れる非同期反復に対する新しい収束結果を紹介する。
結果は簡単に適用でき、非同期の度合いが反復の収束率にどのように影響するかを明確に見積もることができる。
論文 参考訳(メタデータ) (2021-09-09T19:08:56Z) - An Efficient Asynchronous Method for Integrating Evolutionary and
Gradient-based Policy Search [76.73477450555046]
本稿では、ESの並列効率を最大化し、ポリシー勾配法と統合する非同期進化戦略強化学習(AES-RL)を提案する。
具体的には、(1)ESとDRLを非同期にマージする新しいフレームワークを提案し、2)非同期、ES、DRLのすべての利点を利用できる様々な非同期更新方法を提案する。
論文 参考訳(メタデータ) (2020-12-10T02:30:48Z) - Learning Fast Approximations of Sparse Nonlinear Regression [50.00693981886832]
本研究では,Threshold Learned Iterative Shrinkage Algorithming (NLISTA)を導入することでギャップを埋める。
合成データを用いた実験は理論結果と相関し,その手法が最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-10-26T11:31:08Z) - Federated Learning with Compression: Unified Analysis and Sharp
Guarantees [39.092596142018195]
通信コストは、数百万のデバイスからモデルを学ぶために分散最適化アルゴリズムをスケールアップする上で、重要なボトルネックとなることが多い。
フェデレーション圧縮と計算の通信オーバーヘッドに対処する2つの顕著な傾向は、信頼できない圧縮と不均一な通信である。
等質データと異質データの両方における収束度を解析する。
論文 参考訳(メタデータ) (2020-07-02T14:44:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。