論文の概要: Resilient Consensus-based Multi-agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2111.06776v1
- Date: Fri, 12 Nov 2021 15:38:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-15 17:12:58.147416
- Title: Resilient Consensus-based Multi-agent Reinforcement Learning
- Title(参考訳): レジリエントコンセンサスに基づくマルチエージェント強化学習
- Authors: Martin Figura, Yixuan Lin, Ji Liu, Vijay Gupta
- Abstract要約: 我々は、各エージェントがローカルな報酬を受け取り、グローバルな状態と行動を監視する、完全に分散されたネットワークを考える。
本研究では, ビザンティンエージェントの存在下では, 推定・通信戦略が完全に任意である場合, 協調エージェントの推定値が有界コンセンサス値と確率値とに収束することを示す。
本研究では, 協調エージェントの政策が, チーム平均目標関数の局所最大値付近の有界近傍に収束することを証明する。
- 参考スコア(独自算出の注目度): 22.774403531759592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial attacks during training can strongly influence the performance of
multi-agent reinforcement learning algorithms. It is, thus, highly desirable to
augment existing algorithms such that the impact of adversarial attacks on
cooperative networks is eliminated, or at least bounded. In this work, we
consider a fully decentralized network, where each agent receives a local
reward and observes the global state and action. We propose a resilient
consensus-based actor-critic algorithm, whereby each agent estimates the
team-average reward and value function, and communicates the associated
parameter vectors to its immediate neighbors. We show that in the presence of
Byzantine agents, whose estimation and communication strategies are completely
arbitrary, the estimates of the cooperative agents converge to a bounded
consensus value with probability one, provided that there are at most $H$
Byzantine agents in the neighborhood of each cooperative agent and the network
is $(2H+1)$-robust. Furthermore, we prove that the policy of the cooperative
agents converges with probability one to a bounded neighborhood around a local
maximizer of their team-average objective function under the assumption that
the policies of the adversarial agents asymptotically become stationary.
- Abstract(参考訳): 訓練中の敵攻撃は,多エージェント強化学習アルゴリズムの性能に強く影響を与える。
したがって、協調ネットワークに対する敵攻撃の影響が排除される、あるいは少なくとも有界となるような既存のアルゴリズムを強化することが極めて望ましい。
本研究では,各エージェントがローカルな報酬を受け取り,グローバルな状態と行動を監視する,完全に分散されたネットワークを考える。
本稿では,各エージェントが平均報酬と値関数を推定し,関連するパラメータベクトルを隣接者に伝達する,レジリエントなコンセンサスに基づくアクタ批判アルゴリズムを提案する。
推定および通信戦略が完全に任意であるビザンチンエージェントの存在下において、協調エージェントの見積もりは、各協調エージェントの近傍に少なくとも$h$ビザンチンエージェントが存在し、ネットワークが$(2h+1)$-robustである場合に、確率1で境界付けられたコンセンサス値に収束する。
さらに,協調エージェントの方針が,敵エージェントの方針が漸近的に定常的になるという前提の下で,チーム平均目標関数の局所的最大化者周辺の境界近傍に確率1で収束することを示す。
関連論文リスト
- On the Hardness of Decentralized Multi-Agent Policy Evaluation under Byzantine Attacks [12.696705862929337]
完全分散型マルチエージェント政策評価問題について,最大$f$の障害エージェントの存在下で検討する。
特に、モデル中毒設定を伴ういわゆるビザンツの欠陥モデルに焦点を当てる。
論文 参考訳(メタデータ) (2024-09-19T16:27:08Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z) - Byzantine-Resilient Decentralized Multi-Armed Bandits [25.499420566469098]
エージェント間の情報混合ステップを不整合および極端な値の切り離しで融合するアルゴリズムを開発する。
このフレームワークは、コンピュータネットワークの攻撃者をモデル化したり、攻撃的なコンテンツをレコメンデーターシステムに攻撃したり、金融市場のマニピュレータとして利用することができる。
論文 参考訳(メタデータ) (2023-10-11T09:09:50Z) - Byzantine-Robust Online and Offline Distributed Reinforcement Learning [60.970950468309056]
本稿では,複数のエージェントが環境を探索し,その経験を中央サーバを通じて伝達する分散強化学習環境について考察する。
エージェントの$alpha$-fractionは敵対的であり、任意の偽情報を報告することができる。
我々は、これらの対立エージェントの存在下で、マルコフ決定プロセスの根底にある準最適政策を特定することを模索する。
論文 参考訳(メタデータ) (2022-06-01T00:44:53Z) - Depthwise Convolution for Multi-Agent Communication with Enhanced
Mean-Field Approximation [9.854975702211165]
本稿では,MARL(Multi-agent RL)課題に取り組むための,局所的なコミュニケーション学習に基づく新しい手法を提案する。
まず,局所的な関係を効率的に抽出する深層的畳み込み機能を利用する新しい通信プロトコルを設計する。
第2に,エージェント相互作用の規模を減らすために,平均場近似を導入する。
論文 参考訳(メタデータ) (2022-03-06T07:42:43Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - Modeling the Interaction between Agents in Cooperative Multi-Agent
Reinforcement Learning [2.9360071145551068]
対話型アクター・クリティック(IAC)と呼ばれる新しい協調型MARLアルゴリズムを提案する。
IACは政策と価値関数の観点からエージェントの相互作用をモデル化する。
連続制御タスクに値分解手法を拡張し、古典的な制御やマルチエージェント粒子環境を含むベンチマークタスク上でIACを評価する。
論文 参考訳(メタデータ) (2021-02-10T01:58:28Z) - Cooperative and Competitive Biases for Multi-Agent Reinforcement
Learning [12.676356746752893]
マルチエージェント強化学習(MARL)アルゴリズムのトレーニングは,単一エージェント強化学習アルゴリズムのトレーニングよりも難しい。
本稿では,他のエージェントの偏りのある行動情報を用いたMARL訓練を促進するアルゴリズムを提案する。
本アルゴリズムは, 多様な協調競合環境において, 既存のアルゴリズムを上回っていることを実証した。
論文 参考訳(メタデータ) (2021-01-18T05:52:22Z) - Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
論文 参考訳(メタデータ) (2020-12-07T07:29:19Z) - Randomized Entity-wise Factorization for Multi-Agent Reinforcement
Learning [59.62721526353915]
実世界のマルチエージェント設定は、エージェントや非エージェントエンティティのタイプや量が異なるタスクを伴うことが多い。
我々の方法は、これらの共通点を活用することを目的としており、「観察対象のランダムに選択されたサブグループのみを考えるとき、各エージェントが期待する効用は何か?」という問いを投げかける。
論文 参考訳(メタデータ) (2020-06-07T18:28:41Z) - Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。
深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文 参考訳(メタデータ) (2020-03-19T16:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。