論文の概要: White-Box Adversarial Policies in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2209.02167v1
- Date: Mon, 5 Sep 2022 23:53:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 13:15:50.248694
- Title: White-Box Adversarial Policies in Deep Reinforcement Learning
- Title(参考訳): 深層強化学習におけるWhite-Box Adversarial Policies
- Authors: Stephen Casper, Dylan Hadfield-Menell, Gabriel Kreiman
- Abstract要約: AIシステムに対するアドリラルな例は、悪意のある攻撃によるリスクと、敵の訓練による堅牢性向上の機会の両方を生じさせる。
マルチエージェント設定では、被害者エージェントの報酬を最小限に抑えるために、敵エージェントを訓練することで、敵ポリシーを開発することができる。
単エージェント環境における学習者がドメインシフトに対してより堅牢になるためには,ホワイトボックスの敵ポリシーに対するトレーニングが有効であることを示す。
- 参考スコア(独自算出の注目度): 10.46950432522376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial examples against AI systems pose both risks via malicious attacks
and opportunities for improving robustness via adversarial training. In
multiagent settings, adversarial policies can be developed by training an
adversarial agent to minimize a victim agent's rewards. Prior work has studied
black-box attacks where the adversary only sees the state observations and
effectively treats the victim as any other part of the environment. In this
work, we experiment with white-box adversarial policies to study whether an
agent's internal state can offer useful information for other agents. We make
three contributions. First, we introduce white-box adversarial policies in
which an attacker can observe a victim's internal state at each timestep.
Second, we demonstrate that white-box access to a victim makes for better
attacks in two-agent environments, resulting in both faster initial learning
and higher asymptotic performance against the victim. Third, we show that
training against white-box adversarial policies can be used to make learners in
single-agent environments more robust to domain shifts.
- Abstract(参考訳): AIシステムに対する敵の例は、悪意のある攻撃によるリスクと、敵の訓練による堅牢性向上の機会の両方を生じる。
マルチエージェント設定では、被害者の報酬を最小限に抑えるために、敵エージェントを訓練することで、敵ポリシーを開発することができる。
先行研究はブラックボックス攻撃を研究しており、敵は状態観察のみを見て、被害者を環境の他の部分として効果的に扱う。
本研究では,エージェントの内部状態が他のエージェントに有用な情報を提供できるかどうかを調べるために,ホワイトボックスの敵ポリシーを実験する。
我々は3つの貢献をした。
まず、攻撃者が各タイミングで被害者の内部状態を観察できるホワイトボックス対逆ポリシーを導入する。
第2に,被害者に対するホワイトボックスアクセスが2エージェント環境における攻撃を改善することを示し,初期学習の高速化と,被害者に対する漸近的パフォーマンスの向上を図った。
第3に、ホワイトボックスの敵対的ポリシーに対するトレーニングは、単一エージェント環境の学習者をドメインシフトに対してより堅牢にするために使用できることを示す。
関連論文リスト
- Benchmarking and Defending Against Indirect Prompt Injection Attacks on
Large Language Models [82.98081731588717]
大規模な言語モデルと外部コンテンツの統合は、間接的にインジェクション攻撃を行うアプリケーションを公開する。
本稿では,BIPIAと呼ばれる間接的インジェクション攻撃のリスクを評価するための最初のベンチマークについて紹介する。
我々は,素早い学習に基づく2つのブラックボックス法と,逆行訓練による微調整に基づくホワイトボックス防御法を開発した。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文 参考訳(メタデータ) (2023-10-23T17:46:07Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z) - Rethinking Adversarial Policies: A Generalized Attack Formulation and
Provable Defense in RL [46.32591437241358]
本稿では、訓練された被害者エージェントが他のエージェントを制御する攻撃者によって悪用されるマルチエージェント設定について考察する。
以前のモデルでは、攻撃者が$alpha$に対する部分的な制御しか持たない可能性や、攻撃が容易に検出可能な"異常"な振る舞いを生じさせる可能性を考慮していない。
我々は、敵がエージェントをどの程度制御できるかをモデル化する柔軟性を持つ汎用攻撃フレームワークを導入する。
我々は、時間的分離を伴う敵の訓練を通じて、最も堅牢な被害者政策への収束を証明可能な効率のよい防御を提供する。
論文 参考訳(メタデータ) (2023-05-27T02:54:07Z) - IMAP: Intrinsically Motivated Adversarial Policy [34.0283897381197]
強化学習エージェントは、デプロイ中に回避攻撃を受けやすい。
我々は,効率的なブラックボックス対応政策学習のための本質的なモチベーション付き適応政策(IMAP)を提案する。
IMAPは、敵の訓練と頑健な正規化という2種類の防衛方法を回避する。
論文 参考訳(メタデータ) (2023-05-04T07:24:12Z) - Implicit Poisoning Attacks in Two-Agent Reinforcement Learning:
Adversarial Policies for Training-Time Attacks [21.97069271045167]
標的毒攻撃では、攻撃者はエージェントと環境の相互作用を操作して、ターゲットポリシーと呼ばれる利害政策を採用するように強制する。
本研究では,攻撃者がエージェントの有効環境を暗黙的に毒殺する2エージェント環境での標的毒殺攻撃について,仲間の方針を変更して検討した。
最適な攻撃を設計するための最適化フレームワークを開発し、攻撃のコストは、ピアエージェントが想定するデフォルトポリシーからどの程度逸脱するかを測定する。
論文 参考訳(メタデータ) (2023-02-27T14:52:15Z) - Attacking Cooperative Multi-Agent Reinforcement Learning by Adversarial
Minority Influence [57.154716042854034]
Adrial Minority Influence (AMI) は実用的なブラックボックス攻撃であり、被害者のパラメータを知らずに起動できる。
AMIは複雑なマルチエージェント相互作用とエージェントの協調的な目標を考えることでも強い。
我々は、実世界のロボット群に対する最初の攻撃と、シミュレーションされた環境における事実上の愚かなエージェントを、全体として最悪のシナリオへと攻撃することに成功した。
論文 参考訳(メタデータ) (2023-02-07T08:54:37Z) - Zero-Query Transfer Attacks on Context-Aware Object Detectors [95.18656036716972]
敵は、ディープニューラルネットワークが誤った分類結果を生成するような摂動画像を攻撃する。
自然の多目的シーンに対する敵対的攻撃を防御するための有望なアプローチは、文脈整合性チェックを課すことである。
本稿では,コンテキスト整合性チェックを回避可能な,コンテキスト整合性攻撃を生成するための最初のアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-29T04:33:06Z) - Targeted Attack on Deep RL-based Autonomous Driving with Learned Visual
Patterns [18.694795507945603]
近年の研究では、敵の攻撃に対する深い強化学習を通じて学んだコントロールポリシーの脆弱性が実証されている。
本研究では, 物理的対象物に配置した視覚的学習パターンを用いて, 標的攻撃の実現可能性について検討する。
論文 参考訳(メタデータ) (2021-09-16T04:59:06Z) - Policy Teaching via Environment Poisoning: Training-time Adversarial
Attacks against Reinforcement Learning [33.41280432984183]
本研究では,攻撃者が学習環境を害してエージェントに目標ポリシーの実行を強制する強化学習に対するセキュリティ上の脅威について検討する。
被害者として、未報告の無限水平問題設定における平均報酬を最大化するポリシーを見つけることを目的としたRLエージェントを考える。
論文 参考訳(メタデータ) (2020-03-28T23:22:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。