論文の概要: Sample and Communication-Efficient Decentralized Actor-Critic Algorithms
with Finite-Time Analysis
- arxiv url: http://arxiv.org/abs/2109.03699v1
- Date: Wed, 8 Sep 2021 15:02:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-09 13:42:08.015240
- Title: Sample and Communication-Efficient Decentralized Actor-Critic Algorithms
with Finite-Time Analysis
- Title(参考訳): 有限時間解析を用いたサンプル・通信効率の良い分散型アクター臨界アルゴリズム
- Authors: Ziyi Chen, Yi Zhou, Rongrong Chen, Shaofeng Zou
- Abstract要約: Actor-critic (AC)アルゴリズムは分散マルチエージェントシステムで広く採用されている。
我々は、プライベートでサンプルと通信効率のよい2つの分散ACと自然交流(NAC)アルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 27.21581944906418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Actor-critic (AC) algorithms have been widely adopted in decentralized
multi-agent systems to learn the optimal joint control policy. However,
existing decentralized AC algorithms either do not preserve the privacy of
agents or are not sample and communication-efficient. In this work, we develop
two decentralized AC and natural AC (NAC) algorithms that are private, and
sample and communication-efficient. In both algorithms, agents share noisy
information to preserve privacy and adopt mini-batch updates to improve sample
and communication efficiency. Particularly for decentralized NAC, we develop a
decentralized Markovian SGD algorithm with an adaptive mini-batch size to
efficiently compute the natural policy gradient. Under Markovian sampling and
linear function approximation, we prove the proposed decentralized AC and NAC
algorithms achieve the state-of-the-art sample complexities
$\mathcal{O}\big(\epsilon^{-2}\ln(\epsilon^{-1})\big)$ and
$\mathcal{O}\big(\epsilon^{-3}\ln(\epsilon^{-1})\big)$, respectively, and the
same small communication complexity
$\mathcal{O}\big(\epsilon^{-1}\ln(\epsilon^{-1})\big)$. Numerical experiments
demonstrate that the proposed algorithms achieve lower sample and communication
complexities than the existing decentralized AC algorithm.
- Abstract(参考訳): Actor-critic (AC)アルゴリズムは、最適なジョイントコントロールポリシーを学ぶために分散マルチエージェントシステムに広く採用されている。
しかし、既存の分散acアルゴリズムはエージェントのプライバシーを守らないか、サンプルと通信効率が良くない。
本研究では,2つの分散化ACと自然交流(NAC)アルゴリズムを開発した。
どちらのアルゴリズムでも、エージェントはプライバシーを守るためにノイズ情報を共有し、サンプルと通信効率を改善するためにミニバッチ更新を採用する。
特に分散NACでは,適応的なミニバッチサイズを持つ分散マルコフSGDアルゴリズムを開発し,自然政策勾配を効率的に計算する。
マルコフサンプリングと線形関数近似の下で,提案する分散 ac と nac のアルゴリズムは,それぞれ$\mathcal{o}\big(\epsilon^{-2}\ln(\epsilon^{-1})\big)$と $\mathcal{o}\big(\epsilon^{-3}\ln(\epsilon^{-1})\big)$ と,同じ小さな通信複雑性$\mathcal{o}\big(\epsilon^{-1}\ln(\epsilon^{-1})\big)$ を実現する。
数値実験により,提案アルゴリズムは既存の分散化ACアルゴリズムよりもサンプル・通信の複雑さが低いことを示す。
関連論文リスト
- Fully First-Order Methods for Decentralized Bilevel Optimization [17.20330936572045]
本稿では,エージェントが隣人とのみ通信する分散二段階最適化(DSBO)に焦点を当てる。
本稿では,既存の作品に広く採用されている2次オラクルよりもはるかに安価な1次オラクルのみを必要とする新しいアルゴリズムである,分散グラディエントDescent and Ascent with Gradient Tracking (DSGDA-GT)を提案する。
論文 参考訳(メタデータ) (2024-10-25T06:11:43Z) - Breaking the Curse of Multiagency: Provably Efficient Decentralized
Multi-Agent RL with Function Approximation [44.051717720483595]
本稿では,マルチ緊急近似の呪いを確実に解決するMARLアルゴリズムの1行について述べる。
より弱いバージョンのCCEを学習する代わりに、このアルゴリズムは一般的な関数近似の下で幅広い問題に適用される。
我々のアルゴリズムは常にMarkov CCEを出力し、最適レートは$widetildemathcalO(epsilon-2)$で$epsilon$-optimal Solutionを見つける。
論文 参考訳(メタデータ) (2023-02-13T18:59:25Z) - Adaptive Federated Minimax Optimization with Lower Complexities [82.51223883622552]
本稿では,これらのミニマックス問題の解法として,適応最小最適化アルゴリズム(AdaFGDA)を提案する。
運動量に基づく還元および局所SGD技術を構築し、様々な適応学習率を柔軟に組み込む。
論文 参考訳(メタデータ) (2022-11-14T12:32:18Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - Finite-Time Analysis of Fully Decentralized Single-Timescale
Actor-Critic [4.94128206910124]
本稿では,アクタ,批評家,グローバル報酬推定器を交互に更新する,完全に分散化されたアクタ・クリティカル(AC)アルゴリズムを提案する。
このアルゴリズムは,Markovian サンプリングにおいて $tildemathcalO(epsilon-2)$ のサンプル複雑性を持つことを示す。
また、我々のアルゴリズムのローカルアクションプライバシ保護バージョンとその分析も提供する。
論文 参考訳(メタデータ) (2022-06-12T13:14:14Z) - Learning to Coordinate in Multi-Agent Systems: A Coordinated
Actor-Critic Algorithm and Finite-Time Guarantees [43.10380224532313]
本研究ではアクター・クリティカル(AC)アルゴリズムを用いて,自律エージェントによる協調行動の出現について検討する。
本稿では、個別にパラメータ化されたポリシーが共有された部分とパーソナライズされた部分を持つコーディネートされたアクタ・クリティカル・アルゴリズム(CAC)のクラスを提案し、分析する。
この研究は、部分的にパーソナライズされたポリシーを持つ分散ACアルゴリズムに対する最初の有限サンプル保証を提供する。
論文 参考訳(メタデータ) (2021-10-11T20:26:16Z) - Lower Bounds and Optimal Algorithms for Smooth and Strongly Convex
Decentralized Optimization Over Time-Varying Networks [79.16773494166644]
通信ネットワークのノード間を分散的に保存するスムーズで強い凸関数の和を最小化するタスクについて検討する。
我々は、これらの下位境界を達成するための2つの最適アルゴリズムを設計する。
我々は,既存の最先端手法と実験的な比較を行うことにより,これらのアルゴリズムの理論的効率を裏付ける。
論文 参考訳(メタデータ) (2021-06-08T15:54:44Z) - Multi-Agent Off-Policy TD Learning: Finite-Time Analysis with
Near-Optimal Sample Complexity and Communication Complexity [13.100926925535578]
マルチエージェントオフポリシーTD学習のための2つの分散型TD補正(TDC)アルゴリズムを開発しています。
提案アルゴリズムは,エージェントの行動,ポリシー,報酬の完全なプライバシを保持し,サンプリングのばらつきと通信頻度を低減するためにミニバッチサンプリングを採用する。
論文 参考訳(メタデータ) (2021-03-24T12:48:08Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z) - FedPD: A Federated Learning Framework with Optimal Rates and Adaptivity
to Non-IID Data [59.50904660420082]
フェデレートラーニング(FL)は、分散データから学ぶための一般的なパラダイムになっています。
クラウドに移行することなく、さまざまなデバイスのデータを効果的に活用するために、Federated Averaging(FedAvg)などのアルゴリズムでは、"Computation then aggregate"(CTA)モデルを採用している。
論文 参考訳(メタデータ) (2020-05-22T23:07:42Z) - Improving Sample Complexity Bounds for (Natural) Actor-Critic Algorithms [58.57004511121862]
本稿では, マルコフサンプリングにおけるACおよびNACの収束速度とサンプリング複雑性を特徴付ける。
本稿では,ACとNACがPGおよびNPGに対して,批判の組み合わさりにより,無限の地平線下での順に性能改善を実現していることを示す。
論文 参考訳(メタデータ) (2020-04-27T17:11:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。