Fugu-MT 論文翻訳(概要): White-Box Adversarial Policies in Deep Reinforcement Learning

論文の概要: White-Box Adversarial Policies in Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2209.02167v2
Date: Tue, 13 Jun 2023 20:26:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-17 03:43:25.736116
Title: White-Box Adversarial Policies in Deep Reinforcement Learning
Title（参考訳）: 深層強化学習におけるWhite-Box Adversarial Policies
Authors: Stephen Casper, Taylor Killian, Gabriel Kreiman, Dylan Hadfield-Menell
Abstract要約: 強化学習(RL)では、敵エージェントの報酬を最小限に抑えるために、敵エージェントを訓練することにより、敵ポリシーを開発することができる。我々は、より効果的な敵政策を訓練するために、ホワイトボックス攻撃に関する文献から着想を得た。ターゲットエージェントの内部状態にアクセスすることは、その脆弱性を特定するのに有用であることを示す。
参考スコア（独自算出の注目度）: 9.31533617476093
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In reinforcement learning (RL), adversarial policies can be developed by training an adversarial agent to minimize a target agent's rewards. Prior work has studied black-box versions of these attacks where the adversary only observes the world state and treats the target agent as any other part of the environment. However, this does not take into account additional structure in the problem. In this work, we take inspiration from the literature on white-box attacks to train more effective adversarial policies. We study white-box adversarial policies and show that having access to a target agent's internal state can be useful for identifying its vulnerabilities. We make two contributions. (1) We introduce white-box adversarial policies where an attacker observes both a target's internal state and the world state at each timestep. We formulate ways of using these policies to attack agents in 2-player games and text-generating language models. (2) We demonstrate that these policies can achieve higher initial and asymptotic performance against a target agent than black-box controls. Code is available at https://github.com/thestephencasper/lm_white_box_attacks
Abstract（参考訳）: 強化学習(RL)では、敵エージェントの報酬を最小限に抑えるために、敵エージェントを訓練することにより、敵ポリシーを開発することができる。先行研究はこれらの攻撃のブラックボックス版を研究しており、敵は世界状態のみを観察し、ターゲットエージェントを環境の他の部分として扱う。しかし、これは問題における追加的な構造を考慮に入れていない。本研究では,ホワイトボックス攻撃に関する文献からインスピレーションを得て,より効果的な敵政策を訓練する。ホワイトボックスの敵政策を調査し,ターゲットエージェントの内部状態へのアクセスが脆弱性の特定に有用であることを示す。我々は2つの貢献をした。 1)攻撃者が各タイミングで標的の内的状態と世界的状態の両方を観察するホワイトボックスの敵ポリシーを導入する。 2プレイヤーゲームおよびテキスト生成言語モデルにおけるエージェント攻撃にこれらのポリシーを使用する方法を定式化する。 2)これらのポリシーはブラックボックス制御よりもターゲットエージェントに対する初期的および漸近的性能を向上できることを示す。コードはhttps://github.com/thestephencasper/lm_white_box_attacksで入手できる。

関連論文リスト

AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文参考訳（メタデータ） (2025-05-09T07:40:17Z)
DoomArena: A framework for Testing AI Agents Against Evolving Security Threats [84.94654617852322]
本稿では,AIエージェントのセキュリティ評価フレームワークであるDoomArenaを紹介する。プラグインフレームワークであり、現実的なエージェントフレームワークと簡単に統合できる。モジュールであり、エージェントがデプロイされる環境の詳細から攻撃の開発を分離する。
論文参考訳（メタデータ） (2025-04-18T20:36:10Z)
Adversarial Inception Backdoor Attacks against Reinforcement Learning [16.350898218047405]
最近の研究は、訓練時間、バックドア中毒に対するDeep Reinforcement Learning (DRL)アルゴリズムの脆弱性を実証している。本稿では,厳格な報酬制約の下で,DRLに対する新たなバックドア攻撃法を提案する。
論文参考訳（メタデータ） (2024-10-17T19:50:28Z)
CuDA2: An approach for Incorporating Traitor Agents into Cooperative Multi-Agent Systems [13.776447110639193]
CMARLシステムに反抗剤を注入する新しい手法を提案する。 TMDPでは、裏切り者は被害者エージェントと同じMARLアルゴリズムを用いて訓練され、その報酬機能は被害者エージェントの報酬の負として設定される。 CuDA2は、特定の被害者エージェントのポリシーに対する攻撃の効率性と攻撃性を高める。
論文参考訳（メタデータ） (2024-06-25T09:59:31Z)
Adversarial Attacks on Multimodal Agents [73.97379283655127]
視覚対応言語モデル(VLM)は、現在、実環境でのアクションを可能にする自律的なマルチモーダルエージェントの構築に使用されている。攻撃エージェントは、環境への限られたアクセスと知識により、以前の攻撃よりも困難であるにもかかわらず、マルチモーダルエージェントが新たな安全リスクを生じさせることを示す。
論文参考訳（メタデータ） (2024-06-18T17:32:48Z)
Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文参考訳（メタデータ） (2024-06-16T15:24:50Z)
SleeperNets: Universal Backdoor Poisoning Attacks Against Reinforcement Learning Agents [16.350898218047405]
強化学習(Reinforcement Learning, RL)は、現実世界の安全クリティカルなアプリケーションでの利用が増加している分野である。この研究では、特にステルス性のRL(バックドア中毒)に対するトレーニングタイムアタックを調査します。我々は、敵の目的と最適な政策を見出す目的を結びつける新しい毒殺の枠組みを定式化する。
論文参考訳（メタデータ） (2024-05-30T23:31:25Z)
Universal Black-Box Reward Poisoning Attack against Offline Reinforcement Learning [4.629358641630161]
ニューラルネットワークを用いた汎用オフライン強化学習に対する汎用的ブラックボックス型報酬中毒攻撃の問題点について検討する。一般オフラインRL設定において,最初の汎用ブラックボックス報酬中毒攻撃を提案する。
論文参考訳（メタデータ） (2024-02-15T04:08:49Z)
AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文参考訳（メタデータ） (2023-10-23T17:46:07Z)
Rethinking Adversarial Policies: A Generalized Attack Formulation and Provable Defense in RL [46.32591437241358]
本稿では、訓練された被害者エージェントが他のエージェントを制御する攻撃者によって悪用されるマルチエージェント設定について考察する。以前のモデルでは、攻撃者が$alpha$に対する部分的な制御しか持たない可能性や、攻撃が容易に検出可能な"異常"な振る舞いを生じさせる可能性を考慮していない。我々は、敵がエージェントをどの程度制御できるかをモデル化する柔軟性を持つ汎用攻撃フレームワークを導入する。我々は、時間的分離を伴う敵の訓練を通じて、最も堅牢な被害者政策への収束を証明可能な効率のよい防御を提供する。
論文参考訳（メタデータ） (2023-05-27T02:54:07Z)
Toward Evaluating Robustness of Reinforcement Learning with Adversarial Policy [32.1138935956272]
強化学習エージェントは、デプロイ中に回避攻撃を受けやすい。本稿では,効率的なブラックボックス対応政策学習のための本質的なモチベーション付き適応政策(IMAP)を提案する。
論文参考訳（メタデータ） (2023-05-04T07:24:12Z)
Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文参考訳（メタデータ） (2022-07-20T19:49:09Z)
Zero-Query Transfer Attacks on Context-Aware Object Detectors [95.18656036716972]
敵は、ディープニューラルネットワークが誤った分類結果を生成するような摂動画像を攻撃する。自然の多目的シーンに対する敵対的攻撃を防御するための有望なアプローチは、文脈整合性チェックを課すことである。本稿では,コンテキスト整合性チェックを回避可能な,コンテキスト整合性攻撃を生成するための最初のアプローチを提案する。
論文参考訳（メタデータ） (2022-03-29T04:33:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。