論文の概要: On the Hardness of Decentralized Multi-Agent Policy Evaluation under Byzantine Attacks
- arxiv url: http://arxiv.org/abs/2409.12882v2
- Date: Sun, 22 Sep 2024 03:11:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 12:59:09.700667
- Title: On the Hardness of Decentralized Multi-Agent Policy Evaluation under Byzantine Attacks
- Title(参考訳): ビザンチン攻撃による分散型マルチエージェント政策評価の難しさについて
- Authors: Hairi, Minghong Fang, Zifan Zhang, Alvaro Velasquez, Jia Liu,
- Abstract要約: 完全分散型マルチエージェント政策評価問題について,最大$f$の障害エージェントの存在下で検討する。
特に、モデル中毒設定を伴ういわゆるビザンツの欠陥モデルに焦点を当てる。
- 参考スコア(独自算出の注目度): 12.696705862929337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study a fully-decentralized multi-agent policy evaluation problem, which is an important sub-problem in cooperative multi-agent reinforcement learning, in the presence of up to $f$ faulty agents. In particular, we focus on the so-called Byzantine faulty model with model poisoning setting. In general, policy evaluation is to evaluate the value function of any given policy. In cooperative multi-agent system, the system-wide rewards are usually modeled as the uniform average of rewards from all agents. We investigate the multi-agent policy evaluation problem in the presence of Byzantine agents, particularly in the setting of heterogeneous local rewards. Ideally, the goal of the agents is to evaluate the accumulated system-wide rewards, which are uniform average of rewards of the normal agents for a given policy. It means that all agents agree upon common values (the consensus part) and furthermore, the consensus values are the value functions (the convergence part). However, we prove that this goal is not achievable. Instead, we consider a relaxed version of the problem, where the goal of the agents is to evaluate accumulated system-wide reward, which is an appropriately weighted average reward of the normal agents. We further prove that there is no correct algorithm that can guarantee that the total number of positive weights exceeds $|\mathcal{N}|-f $, where $|\mathcal{N}|$ is the number of normal agents. Towards the end, we propose a Byzantine-tolerant decentralized temporal difference algorithm that can guarantee asymptotic consensus under scalar function approximation. We then empirically test the effective of the proposed algorithm.
- Abstract(参考訳): 本稿では,協調型マルチエージェント強化学習において重要なサブプロブレムである完全分散型マルチエージェント政策評価問題について,最大$f$の障害エージェントの存在下で検討する。
特に、モデル中毒設定を伴ういわゆるビザンツの欠陥モデルに焦点を当てる。
一般に、政策評価は、任意の政策の価値関数を評価することである。
協調型マルチエージェントシステムでは、システム全体の報酬は通常、すべてのエージェントからの報酬の均一平均としてモデル化される。
ビザンチン系エージェントの存在下でのマルチエージェント政策評価問題,特に異種局所報酬の設定について検討する。
理想的には、エージェントの目標は、与えられたポリシーに対する通常のエージェントの報酬の均一な平均である、蓄積されたシステム全体の報酬を評価することである。
これは、すべてのエージェントが共通値(コンセンサス部)に合意し、さらにコンセンサス値が値関数(収束部)であることを意味する。
しかし、我々はこの目標が達成できないことを証明している。
代わりに、エージェントの目標は蓄積されたシステム全体の報酬を評価することであり、通常のエージェントの適切な重み付けされた平均報酬である。
さらに、正の重みの総数が $|\mathcal{N}|-f $ を超えることを保証できる正のアルゴリズムが存在しないことを証明している。
最後に、スカラー関数近似の下で漸近的コンセンサスを保証するビザンチン耐性の分散時間差分法を提案する。
次に,提案アルゴリズムの有効性を実証的に検証する。
関連論文リスト
- Multi-Agent Stochastic Bandits Robust to Adversarial Corruptions [6.234292942334148]
敵の汚職に頑健なマルチエージェント協調学習アルゴリズムを提案する。
副産物として,本アルゴリズムは,単一エージェントと同種マルチエージェントの両方のシナリオに還元した場合の,最先端の後悔境界も改善する。
論文 参考訳(メタデータ) (2024-11-12T20:20:26Z) - Towards Fast Rates for Federated and Multi-Task Reinforcement Learning [34.34798425737858]
我々は、慎重に設計されたバイアス補正機構を備えた新しいフェデレーションポリシーアルゴリズムであるFast-FedPGを提案する。
勾配支配条件下では,本アルゴリズムは (i) 厳密な勾配で高速な線形収束を保証し, (ii) 雑音に富んだ政策勾配を持つエージェントの数に比例して線形スピードアップを楽しむサブ線形速度を保証している。
論文 参考訳(メタデータ) (2024-09-09T02:59:17Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - Estimating and Incentivizing Imperfect-Knowledge Agents with Hidden
Rewards [4.742123770879715]
実際には、インセンティブ提供者はインセンティブ付きエージェントの報酬実現を観察できないことが多い。
本稿では,自己関心学習エージェントと学習プリンシパルの繰り返し選択ゲームについて検討する。
我々は,プリンシパルのインセンティブとエージェントの選択履歴のみを入力とする推定器を導入する。
論文 参考訳(メタデータ) (2023-08-13T08:12:01Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Resilient Consensus-based Multi-agent Reinforcement Learning [22.774403531759592]
我々は、各エージェントがローカルな報酬を受け取り、グローバルな状態と行動を監視する、完全に分散されたネットワークを考える。
本研究では, ビザンティンエージェントの存在下では, 推定・通信戦略が完全に任意である場合, 協調エージェントの推定値が有界コンセンサス値と確率値とに収束することを示す。
本研究では, 協調エージェントの政策が, チーム平均目標関数の局所最大値付近の有界近傍に収束することを証明する。
論文 参考訳(メタデータ) (2021-11-12T15:38:01Z) - Dealing with Non-Stationarity in Multi-Agent Reinforcement Learning via
Trust Region Decomposition [52.06086375833474]
非定常性は多エージェント強化学習における厄介な問題である。
ポリシーシーケンスの定常性を明示的にモデル化するための$delta$-stationarity測定を導入する。
共同政策の分岐を推定するために,メッセージパッシングに基づく信頼領域分解ネットワークを提案する。
論文 参考訳(メタデータ) (2021-02-21T14:46:50Z) - Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
論文 参考訳(メタデータ) (2020-12-07T07:29:19Z) - Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。
深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文 参考訳(メタデータ) (2020-03-19T16:51:51Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。