論文の概要: Dissecting Adversarial Robustness of Multimodal LM Agents
- arxiv url: http://arxiv.org/abs/2406.12814v2
- Date: Mon, 16 Dec 2024 00:21:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:53:28.659724
- Title: Dissecting Adversarial Robustness of Multimodal LM Agents
- Title(参考訳): マルチモーダルLM剤の分散対向ロバスト性
- Authors: Chen Henry Wu, Rishi Shah, Jing Yu Koh, Ruslan Salakhutdinov, Daniel Fried, Aditi Raghunathan,
- Abstract要約: 我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価関数を手動で作成する。
ブラックボックスフロンティア LLM を使用する最新のエージェントのレンジを切断できることが分かりました。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
- 参考スコア(独自算出の注目度): 70.2077308846307
- License:
- Abstract: As language models (LMs) are used to build autonomous agents in real environments, ensuring their adversarial robustness becomes a critical challenge. Unlike chatbots, agents are compound systems with multiple components, which existing LM safety evaluations do not adequately address. To bridge this gap, we manually create 200 targeted adversarial tasks and evaluation functions in a realistic threat model on top of VisualWebArena, a real environment for web-based agents. In order to systematically examine the robustness of various multimodal we agents, we propose the Agent Robustness Evaluation (ARE) framework. ARE views the agent as a graph showing the flow of intermediate outputs between components and decomposes robustness as the flow of adversarial information on the graph. First, we find that we can successfully break a range of the latest agents that use black-box frontier LLMs, including those that perform reflection and tree-search. With imperceptible perturbations to a single product image (less than 5% of total web page pixels), an attacker can hijack these agents to execute targeted adversarial goals with success rates up to 67%. We also use ARE to rigorously evaluate how the robustness changes as new components are added. We find that new components that typically improve benign performance can open up new vulnerabilities and harm robustness. An attacker can compromise the evaluator used by the reflexion agent and the value function of the tree search agent, which increases the attack success relatively by 15% and 20%. Our data and code for attacks, defenses, and evaluation are available at https://github.com/ChenWu98/agent-attack
- Abstract(参考訳): 言語モデル(LM)は、現実の環境で自律的なエージェントを構築するために使用されるため、敵の堅牢性を保証することが重要な課題となる。
チャットボットとは異なり、エージェントは複数のコンポーネントを持つ複合システムであり、既存のLM安全性評価は適切に対応していない。
このギャップを埋めるため,Web ベースエージェントの現実環境である VisualWebArena 上に,現実的な脅威モデルを用いて,200 個の敵タスクと評価関数を手動で作成する。
各種マルチモーダル雑草のロバスト性を系統的に検討するため, エージェントロバストネス評価(ARE)フレームワークを提案する。
AREは、エージェントをコンポーネント間の中間出力の流れを示すグラフと見なし、グラフ上の敵情報のフローとしてロバスト性を分解する。
まず、私たちはブラックボックスフロンティアのLSMを使った最新のエージェントを、反射や木探索を行うエージェントを含め、うまく破ることができることに気付きました。
単一の製品イメージに対する知覚できない摂動(全Webページピクセルの5%未満)によって、攻撃者はこれらのエージェントをハイジャックして、ターゲットとする敵の目標を最大67%の成功率で実行することができる。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
通常、良質なパフォーマンスを改善する新しいコンポーネントは、新たな脆弱性を開き、堅牢性を損なう可能性があることに気付きました。
攻撃者は、反射エージェントが使用する評価器と木探索エージェントの値関数を妥協し、攻撃成功率を比較的15%から20%向上させることができる。
攻撃、防御、評価のためのデータとコードはhttps://github.com/ChenWu98/agent- attackで利用可能です。
関連論文リスト
- Derail Yourself: Multi-turn LLM Jailbreak Attack through Self-discovered Clues [88.96201324719205]
本研究では,マルチターンインタラクションにおけるLarge Language Models(LLM)の安全性の脆弱性を明らかにする。
本稿ではアクターネットワーク理論に触発された新しいマルチターン攻撃手法であるActorAttackを紹介する。
論文 参考訳(メタデータ) (2024-10-14T16:41:49Z) - AnyAttack: Towards Large-scale Self-supervised Generation of Targeted Adversarial Examples for Vision-Language Models [41.044385916368455]
VLM(Vision-Language Models)は、画像ベースの敵攻撃に対して脆弱である。
本稿では,ラベル管理なしでVLMのターゲット画像を生成する自己教師型フレームワークであるAnyAttackを提案する。
論文 参考訳(メタデータ) (2024-10-07T09:45:18Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z) - Shadowcast: Stealthy Data Poisoning Attacks Against Vision-Language Models [73.37389786808174]
この研究は、Vision-Language Modelsのデータ中毒攻撃に対する感受性を明らかにするための第一歩となる。
そこで我々はShadowcastを紹介した。これは、毒のサンプルが良心的な画像と視覚的に区別できない、ステルスなデータ中毒攻撃である。
そこで我々は,シャドウキャストが50件の毒のサンプルを用いて攻撃者の意図を効果的に達成していることを示す。
論文 参考訳(メタデータ) (2024-02-05T18:55:53Z) - Vision-LLMs Can Fool Themselves with Self-Generated Typographic Attacks [62.34019142949628]
誤読テキストを画像に貼り付けるタイポグラフィーアタックは、CLIPのようなビジョンランゲージモデルの性能を損なうことが知られている。
我々は、LVLMが自身に対する攻撃を発生させる2つの新しい、より効果的なTextitSelf-Generated攻撃を導入する。
ベンチマークにより,自己生成攻撃が重大な脅威となり,LVLM(s)分類性能が最大33%低下することが判明した。
論文 参考訳(メタデータ) (2024-02-01T14:41:20Z) - InstructTA: Instruction-Tuned Targeted Attack for Large Vision-Language Models [13.21813503235793]
大規模視覚言語モデル(LVLM)は、画像理解と応答生成において、その驚くべき能力を示した。
本稿では,被害者LVLMの視覚エンコーダのみを敵が知ることのできる,新規で実用的な攻撃シナリオを定式化する。
本研究では,LVLMに対して高い転送性を有する目標対向攻撃を実現するために,命令調整型ターゲットアタック(dubed textscInstructTA)を提案する。
論文 参考訳(メタデータ) (2023-12-04T13:40:05Z) - How Robust is Google's Bard to Adversarial Image Attacks? [45.92999116520135]
テキストや他のモダリティ(特に視覚)を統合するマルチモーダル大規模言語モデル(MLLM)は、様々なマルチモーダルタスクにおいて前例のない性能を達成している。
しかし、ビジョンモデルの非解決対向ロバスト性問題により、MLLMはより厳しい安全性とセキュリティリスクを負う可能性がある。
商用MLLMの脆弱性をよりよく理解するために,GoogleのBardの対角的堅牢性について検討する。
論文 参考訳(メタデータ) (2023-09-21T03:24:30Z) - Image Hijacks: Adversarial Images can Control Generative Models at Runtime [8.603201325413192]
推論時に視覚言語モデルの振る舞いを制御する画像ハイジャック, 逆画像を検出する。
Prompt Matching法を考案し、任意のユーザ定義テキストプロンプトの動作にマッチしたハイジャックをトレーニングする。
我々は、Behaviour Matchingを使って、4種類の攻撃に対してハイジャックを作らせ、VLMは敵の選択の出力を生成し、コンテキストウィンドウから情報をリークし、安全トレーニングをオーバーライドし、偽の声明を信じるように強制する。
論文 参考訳(メタデータ) (2023-09-01T03:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。