論文の概要: Cooperative Actor-Critic via TD Error Aggregation
- arxiv url: http://arxiv.org/abs/2207.12533v1
- Date: Mon, 25 Jul 2022 21:10:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-27 13:36:11.966992
- Title: Cooperative Actor-Critic via TD Error Aggregation
- Title(参考訳): TDエラーアグリゲーションによる協調的アクタークリティカル
- Authors: Martin Figura, Yixuan Lin, Ji Liu, Vijay Gupta
- Abstract要約: 本稿では、プライバシー問題に違反しないTDエラーアグリゲーションを備えた分散型アクター批判アルゴリズムを提案する。
我々は,各エージェントが平均目標関数を最大化するために,ステップサイズを小さくして収束解析を行う。
- 参考スコア(独自算出の注目度): 12.211031907519827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In decentralized cooperative multi-agent reinforcement learning, agents can
aggregate information from one another to learn policies that maximize a
team-average objective function. Despite the willingness to cooperate with
others, the individual agents may find direct sharing of information about
their local state, reward, and value function undesirable due to privacy
issues. In this work, we introduce a decentralized actor-critic algorithm with
TD error aggregation that does not violate privacy issues and assumes that
communication channels are subject to time delays and packet dropouts. The cost
we pay for making such weak assumptions is an increased communication burden
for every agent as measured by the dimension of the transmitted data.
Interestingly, the communication burden is only quadratic in the graph size,
which renders the algorithm applicable in large networks. We provide a
convergence analysis under diminishing step size to verify that the agents
maximize the team-average objective function.
- Abstract(参考訳): 分散協調型マルチエージェント強化学習では、エージェントは互いに情報を集約し、チーム平均目標関数を最大化するポリシーを学ぶことができる。
他人と協力する意思があるにもかかわらず、個々のエージェントは、プライバシー問題のために自分のローカル状態、報酬、価値機能に関する情報を直接共有することは望ましくないかもしれない。
本研究では,TDエラーアグリゲーションを用いた分散型アクタ批判アルゴリズムを導入し,通信チャネルが遅延やパケットのドロップアウトの影響を受けることを仮定する。
このような弱い仮定を行う費用は、送信されたデータの寸法によって測定された各エージェントの通信負担の増加である。
興味深いことに、通信負荷はグラフサイズが2倍に過ぎず、大規模なネットワークに適用可能なアルゴリズムを描画する。
我々は,各エージェントが平均目標関数を最大化するために,ステップサイズを小さくして収束解析を行う。
関連論文リスト
- Networked Communication for Mean-Field Games with Function Approximation and Empirical Mean-Field Estimation [59.01527054553122]
分散エージェントは、経験的システムの単一かつ非エポゾディックな実行から平均フィールドゲームにおける平衡を学ぶことができる。
既存の設定に関数近似を導入し,Munchausen Online Mirror Descent 方式で描画する。
また, エージェントが局所的な周辺地域に基づいて, グローバルな経験分布を推定できる新しいアルゴリズムも提供する。
論文 参考訳(メタデータ) (2024-08-21T13:32:46Z) - Compressed Regression over Adaptive Networks [58.79251288443156]
分散エージェントのネットワークによって達成可能な性能を導出し,通信制約や回帰問題を解消し,適応的に解決する。
エージェントによって最適化に必要なパラメータをオンラインで学習できる最適化アロケーション戦略を考案する。
論文 参考訳(メタデータ) (2023-04-07T13:41:08Z) - Towards True Lossless Sparse Communication in Multi-Agent Systems [1.911678487931003]
コミュニケーションは、エージェントが目標を達成するために協力することを可能にする。
スパース個別化コミュニケーションの学習における最近の研究は、訓練中に高いばらつきに悩まされている。
情報ボトルネックを表現学習問題として、空間性を再設定するために使用します。
論文 参考訳(メタデータ) (2022-11-30T20:43:34Z) - Multi-Agent Neural Rewriter for Vehicle Routing with Limited Disclosure
of Costs [65.23158435596518]
チームのマルコフゲームとして、部分的に観測可能なコストでマルチサイクルルーティング問題を解く。
我々のマルチエージェント強化学習アプローチである、いわゆるマルチエージェントニューラルリライタは、1エージェントニューラルリライタを利用して、反復的に書き換えるソリューションによって問題を解決する。
論文 参考訳(メタデータ) (2022-06-13T09:17:40Z) - Private and Byzantine-Proof Cooperative Decision-Making [15.609414012418043]
協調バンディット問題は、多腕バンディットと同時に相互作用するエージェントのグループを含むマルチエージェント決定問題である。
本稿では、エージェントがアクションシーケンスに関して通信をプライベートにしたい場合と、エージェントがビザンチンになり得る場合の2つの設定の下で、バンドイット問題を調査する。
我々は,(a)微分プライベートかつ(b)プライベートでありながら,最適な後悔を得る高信頼有界アルゴリズムを提供する。
我々の分散アルゴリズムはエージェント間の接続のネットワークに関する情報を必要とせず、大規模な動的システムにスケーラブルにします。
論文 参考訳(メタデータ) (2022-05-27T18:03:54Z) - Secure Distributed/Federated Learning: Prediction-Privacy Trade-Off for
Multi-Agent System [4.190359509901197]
分散学習(DLとFL)フレームワーク内で推論を行うビッグデータ時代において、中央サーバは大量のデータを処理する必要がある。
分散コンピューティングトポロジを考えると、プライバシは第一級の関心事になっている。
本研究では,テキストプライバシを意識したサーバを,エージェントごとの情報処理制約を考慮したマルチエージェント代入問題に適用する。
論文 参考訳(メタデータ) (2022-04-24T19:19:20Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - Learning Connectivity for Data Distribution in Robot Teams [96.39864514115136]
グラフニューラルネットワーク(GNN)を用いたアドホックネットワークにおけるデータ分散のためのタスク非依存,分散化,低レイテンシ手法を提案する。
当社のアプローチは、グローバル状態情報に基づいたマルチエージェントアルゴリズムを各ロボットで利用可能にすることで機能させます。
我々は,情報の平均年齢を報酬関数として強化学習を通じて分散gnn通信政策を訓練し,タスク固有の報酬関数と比較してトレーニング安定性が向上することを示す。
論文 参考訳(メタデータ) (2021-03-08T21:48:55Z) - BayGo: Joint Bayesian Learning and Information-Aware Graph Optimization [48.30183416069897]
BayGoは、ベイズ学習とグラフ最適化のフレームワークである。
本研究の枠組みは、完全連結および恒星トポロジーグラフと比較して、より高速な収束と精度を実現する。
論文 参考訳(メタデータ) (2020-11-09T11:16:55Z) - Multi-Agent Decentralized Belief Propagation on Graphs [0.0]
対話的部分観測可能なマルコフ決定過程(I-POMDP)の問題点を考察する。
本稿では,この問題に対する分散的信念伝達アルゴリズムを提案する。
我々の研究は、ネットワーク化されたマルチエージェントI-POMDPのための分散的信念伝播アルゴリズムの最初の研究である。
論文 参考訳(メタデータ) (2020-11-06T18:16:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。