Fugu-MT 論文翻訳(概要): White-Box Adversarial Policies in Deep Reinforcement Learning

論文の概要: White-Box Adversarial Policies in Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2209.02167v1
Date: Mon, 5 Sep 2022 23:53:15 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-07 13:15:50.248694
Title: White-Box Adversarial Policies in Deep Reinforcement Learning
Title（参考訳）: 深層強化学習におけるWhite-Box Adversarial Policies
Authors: Stephen Casper, Dylan Hadfield-Menell, Gabriel Kreiman
Abstract要約: AIシステムに対するアドリラルな例は、悪意のある攻撃によるリスクと、敵の訓練による堅牢性向上の機会の両方を生じさせる。マルチエージェント設定では、被害者エージェントの報酬を最小限に抑えるために、敵エージェントを訓練することで、敵ポリシーを開発することができる。単エージェント環境における学習者がドメインシフトに対してより堅牢になるためには,ホワイトボックスの敵ポリシーに対するトレーニングが有効であることを示す。
参考スコア（独自算出の注目度）: 10.46950432522376
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Adversarial examples against AI systems pose both risks via malicious attacks and opportunities for improving robustness via adversarial training. In multiagent settings, adversarial policies can be developed by training an adversarial agent to minimize a victim agent's rewards. Prior work has studied black-box attacks where the adversary only sees the state observations and effectively treats the victim as any other part of the environment. In this work, we experiment with white-box adversarial policies to study whether an agent's internal state can offer useful information for other agents. We make three contributions. First, we introduce white-box adversarial policies in which an attacker can observe a victim's internal state at each timestep. Second, we demonstrate that white-box access to a victim makes for better attacks in two-agent environments, resulting in both faster initial learning and higher asymptotic performance against the victim. Third, we show that training against white-box adversarial policies can be used to make learners in single-agent environments more robust to domain shifts.
Abstract（参考訳）: AIシステムに対する敵の例は、悪意のある攻撃によるリスクと、敵の訓練による堅牢性向上の機会の両方を生じる。マルチエージェント設定では、被害者の報酬を最小限に抑えるために、敵エージェントを訓練することで、敵ポリシーを開発することができる。先行研究はブラックボックス攻撃を研究しており、敵は状態観察のみを見て、被害者を環境の他の部分として効果的に扱う。本研究では,エージェントの内部状態が他のエージェントに有用な情報を提供できるかどうかを調べるために,ホワイトボックスの敵ポリシーを実験する。我々は3つの貢献をした。まず、攻撃者が各タイミングで被害者の内部状態を観察できるホワイトボックス対逆ポリシーを導入する。第2に,被害者に対するホワイトボックスアクセスが2エージェント環境における攻撃を改善することを示し,初期学習の高速化と,被害者に対する漸近的パフォーマンスの向上を図った。第3に、ホワイトボックスの敵対的ポリシーに対するトレーニングは、単一エージェント環境の学習者をドメインシフトに対してより堅牢にするために使用できることを示す。

関連論文リスト

AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文参考訳（メタデータ） (2025-05-09T07:40:17Z)
DoomArena: A framework for Testing AI Agents Against Evolving Security Threats [84.94654617852322]
本稿では,AIエージェントのセキュリティ評価フレームワークであるDoomArenaを紹介する。プラグインフレームワークであり、現実的なエージェントフレームワークと簡単に統合できる。モジュールであり、エージェントがデプロイされる環境の詳細から攻撃の開発を分離する。
論文参考訳（メタデータ） (2025-04-18T20:36:10Z)
Adversarial Inception Backdoor Attacks against Reinforcement Learning [16.350898218047405]
最近の研究は、訓練時間、バックドア中毒に対するDeep Reinforcement Learning (DRL)アルゴリズムの脆弱性を実証している。本稿では,厳格な報酬制約の下で,DRLに対する新たなバックドア攻撃法を提案する。
論文参考訳（メタデータ） (2024-10-17T19:50:28Z)
CuDA2: An approach for Incorporating Traitor Agents into Cooperative Multi-Agent Systems [13.776447110639193]
CMARLシステムに反抗剤を注入する新しい手法を提案する。 TMDPでは、裏切り者は被害者エージェントと同じMARLアルゴリズムを用いて訓練され、その報酬機能は被害者エージェントの報酬の負として設定される。 CuDA2は、特定の被害者エージェントのポリシーに対する攻撃の効率性と攻撃性を高める。
論文参考訳（メタデータ） (2024-06-25T09:59:31Z)
Adversarial Attacks on Multimodal Agents [73.97379283655127]
視覚対応言語モデル(VLM)は、現在、実環境でのアクションを可能にする自律的なマルチモーダルエージェントの構築に使用されている。攻撃エージェントは、環境への限られたアクセスと知識により、以前の攻撃よりも困難であるにもかかわらず、マルチモーダルエージェントが新たな安全リスクを生じさせることを示す。
論文参考訳（メタデータ） (2024-06-18T17:32:48Z)
Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文参考訳（メタデータ） (2024-06-16T15:24:50Z)
SleeperNets: Universal Backdoor Poisoning Attacks Against Reinforcement Learning Agents [16.350898218047405]
強化学習(Reinforcement Learning, RL)は、現実世界の安全クリティカルなアプリケーションでの利用が増加している分野である。この研究では、特にステルス性のRL(バックドア中毒)に対するトレーニングタイムアタックを調査します。我々は、敵の目的と最適な政策を見出す目的を結びつける新しい毒殺の枠組みを定式化する。
論文参考訳（メタデータ） (2024-05-30T23:31:25Z)
Universal Black-Box Reward Poisoning Attack against Offline Reinforcement Learning [4.629358641630161]
ニューラルネットワークを用いた汎用オフライン強化学習に対する汎用的ブラックボックス型報酬中毒攻撃の問題点について検討する。一般オフラインRL設定において,最初の汎用ブラックボックス報酬中毒攻撃を提案する。
論文参考訳（メタデータ） (2024-02-15T04:08:49Z)
AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文参考訳（メタデータ） (2023-10-23T17:46:07Z)
Rethinking Adversarial Policies: A Generalized Attack Formulation and Provable Defense in RL [46.32591437241358]
本稿では、訓練された被害者エージェントが他のエージェントを制御する攻撃者によって悪用されるマルチエージェント設定について考察する。以前のモデルでは、攻撃者が$alpha$に対する部分的な制御しか持たない可能性や、攻撃が容易に検出可能な"異常"な振る舞いを生じさせる可能性を考慮していない。我々は、敵がエージェントをどの程度制御できるかをモデル化する柔軟性を持つ汎用攻撃フレームワークを導入する。我々は、時間的分離を伴う敵の訓練を通じて、最も堅牢な被害者政策への収束を証明可能な効率のよい防御を提供する。
論文参考訳（メタデータ） (2023-05-27T02:54:07Z)
Toward Evaluating Robustness of Reinforcement Learning with Adversarial Policy [32.1138935956272]
強化学習エージェントは、デプロイ中に回避攻撃を受けやすい。本稿では,効率的なブラックボックス対応政策学習のための本質的なモチベーション付き適応政策(IMAP)を提案する。
論文参考訳（メタデータ） (2023-05-04T07:24:12Z)
Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文参考訳（メタデータ） (2022-07-20T19:49:09Z)
Zero-Query Transfer Attacks on Context-Aware Object Detectors [95.18656036716972]
敵は、ディープニューラルネットワークが誤った分類結果を生成するような摂動画像を攻撃する。自然の多目的シーンに対する敵対的攻撃を防御するための有望なアプローチは、文脈整合性チェックを課すことである。本稿では,コンテキスト整合性チェックを回避可能な,コンテキスト整合性攻撃を生成するための最初のアプローチを提案する。
論文参考訳（メタデータ） (2022-03-29T04:33:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。