論文の概要: CuDA2: An approach for Incorporating Traitor Agents into Cooperative Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2406.17425v1
- Date: Tue, 25 Jun 2024 09:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 14:51:57.510459
- Title: CuDA2: An approach for Incorporating Traitor Agents into Cooperative Multi-Agent Systems
- Title(参考訳): CuDA2: トラクタエージェントを協調マルチエージェントシステムに組み込むアプローチ
- Authors: Zhen Chen, Yong Liao, Youpeng Zhao, Zipeng Dai, Jian Zhao,
- Abstract要約: CMARLシステムに反抗剤を注入する新しい手法を提案する。
TMDPでは、裏切り者は被害者エージェントと同じMARLアルゴリズムを用いて訓練され、その報酬機能は被害者エージェントの報酬の負として設定される。
CuDA2は、特定の被害者エージェントのポリシーに対する攻撃の効率性と攻撃性を高める。
- 参考スコア(独自算出の注目度): 13.776447110639193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cooperative Multi-Agent Reinforcement Learning (CMARL) strategies are well known to be vulnerable to adversarial perturbations. Previous works on adversarial attacks have primarily focused on white-box attacks that directly perturb the states or actions of victim agents, often in scenarios with a limited number of attacks. However, gaining complete access to victim agents in real-world environments is exceedingly difficult. To create more realistic adversarial attacks, we introduce a novel method that involves injecting traitor agents into the CMARL system. We model this problem as a Traitor Markov Decision Process (TMDP), where traitors cannot directly attack the victim agents but can influence their formation or positioning through collisions. In TMDP, traitors are trained using the same MARL algorithm as the victim agents, with their reward function set as the negative of the victim agents' reward. Despite this, the training efficiency for traitors remains low because it is challenging for them to directly associate their actions with the victim agents' rewards. To address this issue, we propose the Curiosity-Driven Adversarial Attack (CuDA2) framework. CuDA2 enhances the efficiency and aggressiveness of attacks on the specified victim agents' policies while maintaining the optimal policy invariance of the traitors. Specifically, we employ a pre-trained Random Network Distillation (RND) module, where the extra reward generated by the RND module encourages traitors to explore states unencountered by the victim agents. Extensive experiments on various scenarios from SMAC demonstrate that our CuDA2 framework offers comparable or superior adversarial attack capabilities compared to other baselines.
- Abstract(参考訳): 協調的マルチエージェント強化学習(CMARL)戦略は、敵の摂動に弱いことが知られている。
敵の攻撃に関するこれまでの研究は主に、攻撃の少ないシナリオにおいて、被害者のエージェントの国家や行動を直接妨害するホワイトボックス攻撃に焦点を当てていた。
しかし,実環境における被害者エージェントの完全アクセスは極めて困難である。
より現実的な敵攻撃を実現するために, CMARLシステムに反逆エージェントを注入する新しい手法を提案する。
我々は、この問題をトラクタマルコフ決定プロセス(TMDP)としてモデル化する。
TMDPでは、裏切り者は被害者エージェントと同じMARLアルゴリズムを用いて訓練され、その報酬機能は被害者エージェントの報酬の負として設定される。
しかし、反逆者の訓練効率は低いままであり、彼らの行動と被害者の報酬を直接関連付けることは困難である。
この問題に対処するため、我々はCuDA(Cuiosity-Driven Adversarial Attack)フレームワークを提案する。
CuDA2は、特定の被害者エージェントのポリシーに対する攻撃の効率性と攻撃性を向上するとともに、裏切り者の最適なポリシー不変性を維持する。
具体的には、トレーニング済みランダムネットワーク蒸留(RND)モジュールを使用し、RNDモジュールが生成する余分な報酬は、反逆者が被害者のエージェントが知らない状態を探索することを奨励する。
SMACの様々なシナリオに対する大規模な実験により、我々のCuDA2フレームワークは、他のベースラインと比較して、同等または優れた敵攻撃能力を提供します。
関連論文リスト
- Adversarial Inception for Bounded Backdoor Poisoning in Deep Reinforcement Learning [16.350898218047405]
本稿では,Deep Reinforcement Learning (DRL)アルゴリズムに対する新たなバックドア攻撃法を提案する。
これらの攻撃は、エージェントの報酬を最小限に変更しながら、アートパフォーマンスの状態を達成します。
次に、拘束された報酬制約の下での事前攻撃を著しく上回るオンラインアタックを考案する。
論文 参考訳(メタデータ) (2024-10-17T19:50:28Z) - DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。
最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。
そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T23:43:47Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z) - Efficient Adversarial Attacks on Online Multi-agent Reinforcement
Learning [45.408568528354216]
対人攻撃がマルチエージェント強化学習(MARL)に及ぼす影響について検討する。
検討された設定では、エージェントがそれらを受け取る前に報酬を変更したり、環境がそれを受け取る前にアクションを操作することができる攻撃者がいる。
この混合攻撃戦略は,攻撃者が基礎となる環境やエージェントのアルゴリズムに関する事前情報を持っていなくても,MARLエージェントを効果的に攻撃することができることを示す。
論文 参考訳(メタデータ) (2023-07-15T00:38:55Z) - Rethinking Adversarial Policies: A Generalized Attack Formulation and
Provable Defense in RL [46.32591437241358]
本稿では、訓練された被害者エージェントが他のエージェントを制御する攻撃者によって悪用されるマルチエージェント設定について考察する。
以前のモデルでは、攻撃者が$alpha$に対する部分的な制御しか持たない可能性や、攻撃が容易に検出可能な"異常"な振る舞いを生じさせる可能性を考慮していない。
我々は、敵がエージェントをどの程度制御できるかをモデル化する柔軟性を持つ汎用攻撃フレームワークを導入する。
我々は、時間的分離を伴う敵の訓練を通じて、最も堅牢な被害者政策への収束を証明可能な効率のよい防御を提供する。
論文 参考訳(メタデータ) (2023-05-27T02:54:07Z) - Toward Evaluating Robustness of Reinforcement Learning with Adversarial Policy [32.1138935956272]
強化学習エージェントは、デプロイ中に回避攻撃を受けやすい。
本稿では,効率的なブラックボックス対応政策学習のための本質的なモチベーション付き適応政策(IMAP)を提案する。
論文 参考訳(メタデータ) (2023-05-04T07:24:12Z) - Attacking Cooperative Multi-Agent Reinforcement Learning by Adversarial Minority Influence [41.14664289570607]
Adrial Minority Influence (AMI) は実用的なブラックボックス攻撃であり、被害者のパラメータを知らずに起動できる。
AMIは複雑なマルチエージェント相互作用とエージェントの協調的な目標を考えることでも強い。
我々は、実世界のロボット群に対する最初の攻撃と、シミュレーションされた環境における事実上の愚かなエージェントを、全体として最悪のシナリオへと攻撃することに成功した。
論文 参考訳(メタデータ) (2023-02-07T08:54:37Z) - Understanding the Vulnerability of Skeleton-based Human Activity Recognition via Black-box Attack [53.032801921915436]
HAR(Human Activity Recognition)は、自動運転車など、幅広い用途に採用されている。
近年,敵対的攻撃に対する脆弱性から,骨格型HAR法の堅牢性に疑問が呈されている。
攻撃者がモデルの入出力しかアクセスできない場合でも、そのような脅威が存在することを示す。
BASARと呼ばれる骨格をベースとしたHARにおいて,最初のブラックボックス攻撃手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T09:51:28Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z) - On the Robustness of Cooperative Multi-Agent Reinforcement Learning [32.92198917228515]
協力的マルチエージェント強化学習(c-MARL)では、エージェントはチームとして協力的に行動し、チーム全体の報酬を最大化する。
我々は,チーム内のエージェントを攻撃できる敵に対するc-MARLのロバスト性を分析する。
一つのエージェントを攻撃することで、我々の攻撃方法はチーム全体の報酬に非常に悪影響を及ぼし、それを20から9.4に減らします。
論文 参考訳(メタデータ) (2020-03-08T05:12:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。