論文の概要: Red Teaming with Mind Reading: White-Box Adversarial Policies Against RL
Agents
- arxiv url: http://arxiv.org/abs/2209.02167v3
- Date: Fri, 13 Oct 2023 22:28:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 07:00:41.690363
- Title: Red Teaming with Mind Reading: White-Box Adversarial Policies Against RL
Agents
- Title(参考訳): redがmind readingと組む: rlエージェントに対するホワイトボックスの敵対的ポリシー
- Authors: Stephen Casper, Taylor Killian, Gabriel Kreiman, Dylan Hadfield-Menell
- Abstract要約: 敵の例は、AIシステムがデプロイされる前に脆弱性を特定するのに役立つ。
攻撃者は各タイミングで攻撃者の内的状態と世界的状態の両方を観察する。
2人プレイヤゲームやテキスト生成言語モデルにおけるエージェント攻撃にこれらのポリシーを使用する方法を定式化する。
- 参考スコア(独自算出の注目度): 16.554859753883928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial examples can be useful for identifying vulnerabilities in AI
systems before they are deployed. In reinforcement learning (RL), adversarial
policies can be developed by training an adversarial agent to minimize a target
agent's rewards. Prior work has studied black-box versions of these attacks
where the adversary only observes the world state and treats the target agent
as any other part of the environment. However, this does not take into account
additional structure in the problem. In this work, we study white-box
adversarial policies and show that having access to a target agent's internal
state can be useful for identifying its vulnerabilities. We make two
contributions. (1) We introduce white-box adversarial policies where an
attacker observes both a target's internal state and the world state at each
timestep. We formulate ways of using these policies to attack agents in
2-player games and text-generating language models. (2) We demonstrate that
these policies can achieve higher initial and asymptotic performance against a
target agent than black-box controls. Code is available at
https://github.com/thestephencasper/lm_white_box_attacks
- Abstract(参考訳): 敵の例は、デプロイ前にAIシステムの脆弱性を特定するのに役立つ。
強化学習(RL)では、敵エージェントの報酬を最小限に抑えるために、敵エージェントを訓練することにより、敵ポリシーを開発することができる。
先行研究はこれらの攻撃のブラックボックス版を研究しており、敵は世界状態のみを観察し、ターゲットエージェントを環境の他の部分として扱う。
しかし、これは問題における追加的な構造を考慮に入れていない。
本研究では,ホワイトボックスの敵政策を調査し,ターゲットエージェントの内部状態へのアクセスが脆弱性の特定に有用であることを示す。
我々は2つの貢献をした。
1)攻撃者が各タイミングで標的の内的状態と世界的状態の両方を観察するホワイトボックスの敵ポリシーを導入する。
2プレイヤーゲームおよびテキスト生成言語モデルにおけるエージェント攻撃にこれらのポリシーを使用する方法を定式化する。
2)これらのポリシーはブラックボックス制御よりもターゲットエージェントに対する初期的および漸近的性能を向上できることを示す。
コードはhttps://github.com/thestephencasper/lm_white_box_attacksで入手できる。
関連論文リスト
- CuDA2: An approach for Incorporating Traitor Agents into Cooperative Multi-Agent Systems [13.776447110639193]
CMARLシステムに反抗剤を注入する新しい手法を提案する。
TMDPでは、裏切り者は被害者エージェントと同じMARLアルゴリズムを用いて訓練され、その報酬機能は被害者エージェントの報酬の負として設定される。
CuDA2は、特定の被害者エージェントのポリシーに対する攻撃の効率性と攻撃性を高める。
論文 参考訳(メタデータ) (2024-06-25T09:59:31Z) - Adversarial Attacks on Multimodal Agents [73.97379283655127]
視覚対応言語モデル(VLM)は、現在、実環境でのアクションを可能にする自律的なマルチモーダルエージェントの構築に使用されている。
攻撃エージェントは、環境への限られたアクセスと知識により、以前の攻撃よりも困難であるにもかかわらず、マルチモーダルエージェントが新たな安全リスクを生じさせることを示す。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - SleeperNets: Universal Backdoor Poisoning Attacks Against Reinforcement Learning Agents [16.350898218047405]
強化学習(Reinforcement Learning, RL)は、現実世界の安全クリティカルなアプリケーションでの利用が増加している分野である。
この研究では、特にステルス性のRL(バックドア中毒)に対するトレーニングタイムアタックを調査します。
我々は、敵の目的と最適な政策を見出す目的を結びつける新しい毒殺の枠組みを定式化する。
論文 参考訳(メタデータ) (2024-05-30T23:31:25Z) - Universal Black-Box Reward Poisoning Attack against Offline Reinforcement Learning [4.629358641630161]
ニューラルネットワークを用いた汎用オフライン強化学習に対する汎用的ブラックボックス型報酬中毒攻撃の問題点について検討する。
一般オフラインRL設定において,最初の汎用ブラックボックス報酬中毒攻撃を提案する。
論文 参考訳(メタデータ) (2024-02-15T04:08:49Z) - AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文 参考訳(メタデータ) (2023-10-23T17:46:07Z) - Rethinking Adversarial Policies: A Generalized Attack Formulation and
Provable Defense in RL [46.32591437241358]
本稿では、訓練された被害者エージェントが他のエージェントを制御する攻撃者によって悪用されるマルチエージェント設定について考察する。
以前のモデルでは、攻撃者が$alpha$に対する部分的な制御しか持たない可能性や、攻撃が容易に検出可能な"異常"な振る舞いを生じさせる可能性を考慮していない。
我々は、敵がエージェントをどの程度制御できるかをモデル化する柔軟性を持つ汎用攻撃フレームワークを導入する。
我々は、時間的分離を伴う敵の訓練を通じて、最も堅牢な被害者政策への収束を証明可能な効率のよい防御を提供する。
論文 参考訳(メタデータ) (2023-05-27T02:54:07Z) - Toward Evaluating Robustness of Reinforcement Learning with Adversarial Policy [32.1138935956272]
強化学習エージェントは、デプロイ中に回避攻撃を受けやすい。
本稿では,効率的なブラックボックス対応政策学習のための本質的なモチベーション付き適応政策(IMAP)を提案する。
論文 参考訳(メタデータ) (2023-05-04T07:24:12Z) - Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。
既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。
以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文 参考訳(メタデータ) (2022-07-20T19:49:09Z) - Zero-Query Transfer Attacks on Context-Aware Object Detectors [95.18656036716972]
敵は、ディープニューラルネットワークが誤った分類結果を生成するような摂動画像を攻撃する。
自然の多目的シーンに対する敵対的攻撃を防御するための有望なアプローチは、文脈整合性チェックを課すことである。
本稿では,コンテキスト整合性チェックを回避可能な,コンテキスト整合性攻撃を生成するための最初のアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-29T04:33:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。