論文の概要: Rethinking Adversarial Policies: A Generalized Attack Formulation and
Provable Defense in RL
- arxiv url: http://arxiv.org/abs/2305.17342v3
- Date: Tue, 20 Feb 2024 16:05:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 11:45:51.380637
- Title: Rethinking Adversarial Policies: A Generalized Attack Formulation and
Provable Defense in RL
- Title(参考訳): 敵政策の再考:RLにおける汎用的な攻撃の定式化と防御
- Authors: Xiangyu Liu, Souradip Chakraborty, Yanchao Sun, Furong Huang
- Abstract要約: 本稿では、訓練された被害者エージェントが他のエージェントを制御する攻撃者によって悪用されるマルチエージェント設定について考察する。
以前のモデルでは、攻撃者が$alpha$に対する部分的な制御しか持たない可能性や、攻撃が容易に検出可能な"異常"な振る舞いを生じさせる可能性を考慮していない。
我々は、敵がエージェントをどの程度制御できるかをモデル化する柔軟性を持つ汎用攻撃フレームワークを導入する。
我々は、時間的分離を伴う敵の訓練を通じて、最も堅牢な被害者政策への収束を証明可能な効率のよい防御を提供する。
- 参考スコア(独自算出の注目度): 46.32591437241358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing works focus on direct perturbations to the victim's
state/action or the underlying transition dynamics to demonstrate the
vulnerability of reinforcement learning agents to adversarial attacks. However,
such direct manipulations may not be always realizable. In this paper, we
consider a multi-agent setting where a well-trained victim agent $\nu$ is
exploited by an attacker controlling another agent $\alpha$ with an
\textit{adversarial policy}. Previous models do not account for the possibility
that the attacker may only have partial control over $\alpha$ or that the
attack may produce easily detectable "abnormal" behaviors. Furthermore, there
is a lack of provably efficient defenses against these adversarial policies. To
address these limitations, we introduce a generalized attack framework that has
the flexibility to model to what extent the adversary is able to control the
agent, and allows the attacker to regulate the state distribution shift and
produce stealthier adversarial policies. Moreover, we offer a provably
efficient defense with polynomial convergence to the most robust victim policy
through adversarial training with timescale separation. This stands in sharp
contrast to supervised learning, where adversarial training typically provides
only \textit{empirical} defenses. Using the Robosumo competition experiments,
we show that our generalized attack formulation results in much stealthier
adversarial policies when maintaining the same winning rate as baselines.
Additionally, our adversarial training approach yields stable learning dynamics
and less exploitable victim policies.
- Abstract(参考訳): 既存の作品の多くは、敵の攻撃に対する強化学習エージェントの脆弱性を示すために、被害者の状態や行動に対する直接的な摂動や、基礎となる遷移ダイナミクスに焦点を当てている。
しかし、そのような直接操作は常に実現できるとは限らない。
本稿では,訓練された被害者エージェントである$\nu$が, \textit{adversarial policy} で$\alpha$を制御する攻撃者によって悪用されるマルチエージェント設定を考える。
以前のモデルでは、攻撃者が$\alpha$に対する部分的な制御しか持たない可能性や、攻撃が容易に検出可能な"異常"な振る舞いを生じさせる可能性を考慮していない。
さらに、これらの敵対的な政策に対する効果的な防御が欠如している。
これらの制限に対処するために、敵がエージェントをどの程度制御できるかをモデル化する柔軟性を持つ汎用攻撃フレームワークを導入し、攻撃者が状態分布シフトを規制し、よりステルスな敵ポリシーを作成できるようにする。
さらに,時間スケールの分離による対人訓練を通じて,多項式収束による防御を最も堅牢な被害者政策に適用する。
これは教師付き学習とは対照的であり、敵の訓練は一般的には \textit{empirical} の防御しか提供しない。
本研究は,Robosumoコンペティション実験を用いて,ベースラインと同じ勝利率を維持する場合,我々の汎用攻撃定式化により,よりステルスな敵政策がもたらされることを示す。
さらに、我々の敵対的トレーニングアプローチは、安定した学習ダイナミクスと、悪用可能な被害者ポリシーをもたらします。
関連論文リスト
- CuDA2: An approach for Incorporating Traitor Agents into Cooperative Multi-Agent Systems [13.776447110639193]
CMARLシステムに反抗剤を注入する新しい手法を提案する。
TMDPでは、裏切り者は被害者エージェントと同じMARLアルゴリズムを用いて訓練され、その報酬機能は被害者エージェントの報酬の負として設定される。
CuDA2は、特定の被害者エージェントのポリシーに対する攻撃の効率性と攻撃性を高める。
論文 参考訳(メタデータ) (2024-06-25T09:59:31Z) - Optimal Cost Constrained Adversarial Attacks For Multiple Agent Systems [6.69087470775851]
分散攻撃エージェントを用いた最適な敵エージェント対エージェント攻撃を行うという問題を定式化する。
そこで本稿では,静的制約付き攻撃-リソース割り当て最適化と動的プログラミングの段階間最適化を組み合わせた最適手法を提案する。
以上の結果から,攻撃エージェントが受ける報酬を大幅に削減できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-01T21:28:02Z) - Toward Evaluating Robustness of Reinforcement Learning with Adversarial Policy [32.1138935956272]
強化学習エージェントは、デプロイ中に回避攻撃を受けやすい。
本稿では,効率的なブラックボックス対応政策学習のための本質的なモチベーション付き適応政策(IMAP)を提案する。
論文 参考訳(メタデータ) (2023-05-04T07:24:12Z) - Understanding the Vulnerability of Skeleton-based Human Activity Recognition via Black-box Attack [53.032801921915436]
HAR(Human Activity Recognition)は、自動運転車など、幅広い用途に採用されている。
近年,敵対的攻撃に対する脆弱性から,骨格型HAR法の堅牢性に疑問が呈されている。
攻撃者がモデルの入出力しかアクセスできない場合でも、そのような脅威が存在することを示す。
BASARと呼ばれる骨格をベースとしたHARにおいて,最初のブラックボックス攻撃手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T09:51:28Z) - Imitating Opponent to Win: Adversarial Policy Imitation Learning in
Two-player Competitive Games [0.0]
敵エージェントが採用する敵ポリシーは、ターゲットRLエージェントに影響を及ぼし、マルチエージェント環境では性能が良くない。
既存の研究では、被害者エージェントと対話した経験に基づいて、敵の政策を直接訓練している。
我々は、この欠点を克服する、新しい効果的な対人政策学習アルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-10-30T18:32:02Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Adversarial Visual Robustness by Causal Intervention [56.766342028800445]
敵の訓練は、敵の例に対する事実上最も有望な防御である。
しかし、その受動性は必然的に未知の攻撃者への免疫を妨げる。
我々は、敵対的脆弱性の因果的視点を提供する: 原因は、学習に普遍的に存在する共同創設者である。
論文 参考訳(メタデータ) (2021-06-17T14:23:54Z) - Provable Defense Against Delusive Poisoning [64.69220849669948]
本研究は, 対人訓練が妄想性中毒に対する防御法であることを示す。
これは、敵の訓練が妄想的中毒に対する原則的な防御方法であることを意味している。
論文 参考訳(メタデータ) (2021-02-09T09:19:47Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z) - Policy Teaching via Environment Poisoning: Training-time Adversarial
Attacks against Reinforcement Learning [33.41280432984183]
本研究では,攻撃者が学習環境を害してエージェントに目標ポリシーの実行を強制する強化学習に対するセキュリティ上の脅威について検討する。
被害者として、未報告の無限水平問題設定における平均報酬を最大化するポリシーを見つけることを目的としたRLエージェントを考える。
論文 参考訳(メタデータ) (2020-03-28T23:22:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。