論文の概要: RAT: Adversarial Attacks on Deep Reinforcement Agents for Targeted Behaviors
- arxiv url: http://arxiv.org/abs/2412.10713v1
- Date: Sat, 14 Dec 2024 06:56:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:02:18.904799
- Title: RAT: Adversarial Attacks on Deep Reinforcement Agents for Targeted Behaviors
- Title(参考訳): RAT: 標的行動に対する深部強化剤の敵攻撃
- Authors: Fengshuo Bai, Runze Liu, Yali Du, Ying Wen, Yaodong Yang,
- Abstract要約: RATは、人間の嗜好と明確に一致した意図的なポリシーを訓練する。
RATはリプレイバッファ内の状態占有度を動的に調整し、より制御され効果的な動作操作を可能にする。
- 参考スコア(独自算出の注目度): 15.593859086891745
- License:
- Abstract: Evaluating deep reinforcement learning (DRL) agents against targeted behavior attacks is critical for assessing their robustness. These attacks aim to manipulate the victim into specific behaviors that align with the attacker's objectives, often bypassing traditional reward-based defenses. Prior methods have primarily focused on reducing cumulative rewards; however, rewards are typically too generic to capture complex safety requirements effectively. As a result, focusing solely on reward reduction can lead to suboptimal attack strategies, particularly in safety-critical scenarios where more precise behavior manipulation is needed. To address these challenges, we propose RAT, a method designed for universal, targeted behavior attacks. RAT trains an intention policy that is explicitly aligned with human preferences, serving as a precise behavioral target for the adversary. Concurrently, an adversary manipulates the victim's policy to follow this target behavior. To enhance the effectiveness of these attacks, RAT dynamically adjusts the state occupancy measure within the replay buffer, allowing for more controlled and effective behavior manipulation. Our empirical results on robotic simulation tasks demonstrate that RAT outperforms existing adversarial attack algorithms in inducing specific behaviors. Additionally, RAT shows promise in improving agent robustness, leading to more resilient policies. We further validate RAT by guiding Decision Transformer agents to adopt behaviors aligned with human preferences in various MuJoCo tasks, demonstrating its effectiveness across diverse tasks.
- Abstract(参考訳): 標的行動攻撃に対する深層強化学習(DRL)エージェントの評価は、その堅牢性を評価する上で重要である。
これらの攻撃は、犠牲者を攻撃者の目的に沿った特定の行動に操ることを目的としており、しばしば伝統的な報酬ベースの防御を回避している。
従来の手法は主に累積報酬の削減に重点を置いていたが、報酬は一般的に複雑な安全要件を効果的に捉えるには汎用的すぎる。
その結果、報酬削減にのみ焦点をあてることで、特により正確な行動操作が必要な安全クリティカルなシナリオにおいて、最適な攻撃戦略につながる可能性がある。
これらの課題に対処するために,汎用的,標的とした行動攻撃を対象とする手法であるRATを提案する。
RATは、人間の嗜好に明示的に合致した意図的な政策を訓練し、敵の正確な行動目標として機能する。
同時に、敵は被害者のポリシーを操り、この標的行動に従う。
これらの攻撃の有効性を高めるため、RATはリプレイバッファ内の状態占有度を動的に調整し、より制御され効果的な動作操作を可能にする。
ロボットシミュレーションタスクにおける実験結果から、RATは特定の振る舞いを誘導する既存の敵攻撃アルゴリズムより優れていることが示された。
さらに、RATはエージェントの堅牢性を改善し、よりレジリエントなポリシーをもたらすことを約束している。
各種のMuJoCoタスクにおいて、人間の嗜好に沿った行動を採用するように決定トランスフォーマーエージェントを誘導することにより、RATをさらに検証し、その効果を多種多様なタスクで実証する。
関連論文リスト
- Adversarial Inception for Bounded Backdoor Poisoning in Deep Reinforcement Learning [16.350898218047405]
本稿では,Deep Reinforcement Learning (DRL)アルゴリズムに対する新たなバックドア攻撃法を提案する。
これらの攻撃は、エージェントの報酬を最小限に変更しながら、アートパフォーマンスの状態を達成します。
次に、拘束された報酬制約の下での事前攻撃を著しく上回るオンラインアタックを考案する。
論文 参考訳(メタデータ) (2024-10-17T19:50:28Z) - CuDA2: An approach for Incorporating Traitor Agents into Cooperative Multi-Agent Systems [13.776447110639193]
CMARLシステムに反抗剤を注入する新しい手法を提案する。
TMDPでは、裏切り者は被害者エージェントと同じMARLアルゴリズムを用いて訓練され、その報酬機能は被害者エージェントの報酬の負として設定される。
CuDA2は、特定の被害者エージェントのポリシーに対する攻撃の効率性と攻撃性を高める。
論文 参考訳(メタデータ) (2024-06-25T09:59:31Z) - SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - PRAT: PRofiling Adversarial aTtacks [52.693011665938734]
PRofiling Adversarial aTacks (PRAT) の新たな問題点について紹介する。
敵対的な例として、PRATの目的は、それを生成するのに使用される攻撃を特定することである。
AIDを用いてPRATの目的のための新しいフレームワークを考案する。
論文 参考訳(メタデータ) (2023-09-20T07:42:51Z) - Efficient Adversarial Attacks on Online Multi-agent Reinforcement
Learning [45.408568528354216]
対人攻撃がマルチエージェント強化学習(MARL)に及ぼす影響について検討する。
検討された設定では、エージェントがそれらを受け取る前に報酬を変更したり、環境がそれを受け取る前にアクションを操作することができる攻撃者がいる。
この混合攻撃戦略は,攻撃者が基礎となる環境やエージェントのアルゴリズムに関する事前情報を持っていなくても,MARLエージェントを効果的に攻撃することができることを示す。
論文 参考訳(メタデータ) (2023-07-15T00:38:55Z) - A Tale of HodgeRank and Spectral Method: Target Attack Against Rank
Aggregation Is the Fixed Point of Adversarial Game [153.74942025516853]
ランクアグリゲーション手法の本質的な脆弱性は文献ではよく研究されていない。
本稿では,ペアデータの変更による集計結果の指定を希望する目的のある敵に焦点をあてる。
提案した標的攻撃戦略の有効性は,一連の玩具シミュレーションと実世界のデータ実験によって実証された。
論文 参考訳(メタデータ) (2022-09-13T05:59:02Z) - Model-Agnostic Meta-Attack: Towards Reliable Evaluation of Adversarial
Robustness [53.094682754683255]
モデル非依存型メタアタック(MAMA)アプローチにより,より強力な攻撃アルゴリズムを自動検出する。
本手法は、繰り返しニューラルネットワークによってパラメータ化された逆攻撃を学習する。
本研究では,未知の防御を攻撃した場合の学習能力を向上させるために,モデルに依存しない訓練アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-13T13:54:24Z) - Guided Adversarial Attack for Evaluating and Enhancing Adversarial
Defenses [59.58128343334556]
我々は、より適切な勾配方向を見つけ、攻撃効果を高め、より効率的な対人訓練をもたらす標準損失に緩和項を導入する。
本稿では, クリーン画像の関数マッピングを用いて, 敵生成を誘導するGAMA ( Guided Adversarial Margin Attack) を提案する。
また,一段防衛における最先端性能を実現するためのGAT ( Guided Adversarial Training) を提案する。
論文 参考訳(メタデータ) (2020-11-30T16:39:39Z) - Adversarial jamming attacks and defense strategies via adaptive deep
reinforcement learning [12.11027948206573]
本稿では、DRLベースの動的チャネルアクセスを行う被害者ユーザと、DRLベースの妨害攻撃を実行して被害者を妨害する攻撃者について考察する。
被害者も攻撃者もDRLエージェントであり、互いに相互作用し、モデルを再訓練し、相手の方針に適応することができる。
攻撃された被害者の精度を最大化し,その性能を評価するための3つの防衛戦略を提案する。
論文 参考訳(メタデータ) (2020-07-12T18:16:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。