論文の概要: Global Convergence Guarantees for Federated Policy Gradient Methods with Adversaries
- arxiv url: http://arxiv.org/abs/2403.09940v1
- Date: Fri, 15 Mar 2024 00:45:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 20:56:05.858952
- Title: Global Convergence Guarantees for Federated Policy Gradient Methods with Adversaries
- Title(参考訳): グローバル・コンバージェンス保証
- Authors: Swetha Ganesh, Jiayu Chen, Gugan Thoppe, Vaneet Aggarwal,
- Abstract要約: Federated Reinforcement Learning (FRL)は、複数のエージェントが生の軌跡を共有することなく、協調して意思決定ポリシーを構築することを可能にする。
本稿では,サーバに任意の値を送信可能な敵エージェントに対して堅牢なポリシー勾配に基づくアプローチを提案する。
- 参考スコア(独自算出の注目度): 30.75189691569487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Federated Reinforcement Learning (FRL) allows multiple agents to collaboratively build a decision making policy without sharing raw trajectories. However, if a small fraction of these agents are adversarial, it can lead to catastrophic results. We propose a policy gradient based approach that is robust to adversarial agents which can send arbitrary values to the server. Under this setting, our results form the first global convergence guarantees with general parametrization. These results demonstrate resilience with adversaries, while achieving sample complexity of order $\tilde{\mathcal{O}}\left( \frac{1}{\epsilon^2} \left( \frac{1}{N-f} + \frac{f^2}{(N-f)^2}\right)\right)$, where $N$ is the total number of agents and $f$ is the number of adversarial agents.
- Abstract(参考訳): Federated Reinforcement Learning (FRL)は、複数のエージェントが生の軌跡を共有することなく、協調して意思決定ポリシーを構築することを可能にする。
しかし、これらの薬剤のごく一部が敵対的であれば、破滅的な結果をもたらす可能性がある。
本稿では,サーバに任意の値を送信可能な敵エージェントに対して堅牢なポリシー勾配に基づくアプローチを提案する。
この設定の下で、我々の結果は一般パラメトリゼーションによる最初の大域収束保証を形成する。
これらの結果は,次数$\tilde{\mathcal{O}}\left( \frac{1}{\epsilon^2} \left( \frac{1}{N-f} + \frac{f^2}{(N-f)^2}\right)\right)\right)$,$N$はエージェントの総数であり,$f$は敵エージェントの数である。
関連論文リスト
- Cooperative Multi-Agent Constrained Stochastic Linear Bandits [2.099922236065961]
N$エージェントのネットワークがローカルに通信し、期待されるコストを所定の閾値$tau$で保持しながら、全体的な後悔を最小限に抑える。
我々は、textitMA-OPLBと呼ばれる安全な分散上信頼度有界アルゴリズムを提案し、そのT$ラウンドの後悔に基づく高い確率を確立する。
我々の後悔の限界は次数$ MathcalOleft(fracdtau-c_0fraclog(NT)2sqrtNsqrtTlog (1/|lambda|)であることを示す。
論文 参考訳(メタデータ) (2024-10-22T19:34:53Z) - Towards Fast Rates for Federated and Multi-Task Reinforcement Learning [34.34798425737858]
我々は、慎重に設計されたバイアス補正機構を備えた新しいフェデレーションポリシーアルゴリズムであるFast-FedPGを提案する。
勾配支配条件下では,本アルゴリズムは (i) 厳密な勾配で高速な線形収束を保証し, (ii) 雑音に富んだ政策勾配を持つエージェントの数に比例して線形スピードアップを楽しむサブ線形速度を保証している。
論文 参考訳(メタデータ) (2024-09-09T02:59:17Z) - Asynchronous Federated Reinforcement Learning with Policy Gradient Updates: Algorithm Design and Convergence Analysis [41.75366066380951]
N$エージェント間の協調によりグローバルモデルを構築する非同期強化学習フレームワークAFedPGを提案する。
我々は, AFedPGの理論的大域収束境界を解析し, サンプル複雑性と時間複雑性の両方の観点から, 提案アルゴリズムの利点を特徴づける。
我々は,多種多様なエージェントを持つ4つの広く使用されている MuJoCo 環境における AFedPG の性能改善を実証的に検証した。
論文 参考訳(メタデータ) (2024-04-09T04:21:13Z) - Adaptive, Doubly Optimal No-Regret Learning in Strongly Monotone and Exp-Concave Games with Gradient Feedback [75.29048190099523]
オンライン勾配降下(OGD)は、強い凸性や単調性仮定の下では二重最適であることが知られている。
本稿では,これらのパラメータの事前知識を必要としない完全適応型OGDアルゴリズム,textsfAdaOGDを設計する。
論文 参考訳(メタデータ) (2023-10-21T18:38:13Z) - Improved Communication Efficiency in Federated Natural Policy Gradient
via ADMM-based Gradient Updates [30.79390892386221]
フェデレート強化学習(FedRL)は、エージェントが個々のデータを共有することなく、グローバルなポリシーを協調的に訓練することを可能にする。
我々は,乗算器の交互方向法を利用してグローバルNPG方向を効率的に近似するFedNPG-ADMMフレームワークを提案する。
我々は、FedNPG-ADMMが標準FedNPGの報酬性能を維持しており、その収束率は、フェデレートエージェントの数が増えると改善することを示した。
論文 参考訳(メタデータ) (2023-10-09T16:48:56Z) - Scalable Primal-Dual Actor-Critic Method for Safe Multi-Agent RL with
General Utilities [12.104551746465932]
安全マルチエージェント強化学習について検討し、エージェントはそれぞれの安全制約を満たしつつ、局所的な目的の総和をまとめて最大化しようとする。
我々のアルゴリズムは、$mathcalOleft(T-2/3right)$のレートで1次定常点(FOSP)に収束する。
サンプルベースの設定では、高い確率で、我々のアルゴリズムは、$epsilon$-FOSPを達成するために$widetildemathcalOleft(epsilon-3.5right)$サンプルが必要です。
論文 参考訳(メタデータ) (2023-05-27T20:08:35Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Towards Compositional Adversarial Robustness: Generalizing Adversarial
Training to Composite Semantic Perturbations [70.05004034081377]
まず,合成逆数例を生成する新しい手法を提案する。
本手法は, コンポーネントワイド射影勾配勾配を利用して最適攻撃組成を求める。
次に,モデルロバスト性を$ell_p$-ballから複合意味摂動へ拡張するための一般化逆トレーニング(GAT)を提案する。
論文 参考訳(メタデータ) (2022-02-09T02:41:56Z) - Sharp Statistical Guarantees for Adversarially Robust Gaussian
Classification [54.22421582955454]
逆向きに頑健な分類の過剰リスクに対する最適ミニマックス保証の最初の結果を提供する。
結果はAdvSNR(Adversarial Signal-to-Noise Ratio)の項で述べられており、これは標準的な線形分類と逆数設定との類似の考え方を一般化している。
論文 参考訳(メタデータ) (2020-06-29T21:06:52Z) - Toward Adversarial Robustness via Semi-supervised Robust Training [93.36310070269643]
アドリラルな例は、ディープニューラルネットワーク(DNN)に対する深刻な脅威であることが示されている。
R_stand$ と $R_rob$ の2つの異なるリスクを共同で最小化することで、新しい防御手法であるロバストトレーニング(RT)を提案する。
論文 参考訳(メタデータ) (2020-03-16T02:14:08Z) - Reward-Free Exploration for Reinforcement Learning [82.3300753751066]
探索の課題を分離する「逆フリーなRL」フレームワークを提案する。
我々は,$tildemathcalO(S2Amathrmpoly(H)/epsilon2)$の探索を効率的に行うアルゴリズムを提案する。
また、ほぼ一致する$Omega(S2AH2/epsilon2)$ lower boundを与え、この設定でアルゴリズムのほぼ最適性を示す。
論文 参考訳(メタデータ) (2020-02-07T14:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。