Fugu-MT 論文翻訳(概要): Dissecting Adversarial Robustness of Multimodal LM Agents

論文の概要: Dissecting Adversarial Robustness of Multimodal LM Agents

arxiv url: http://arxiv.org/abs/2406.12814v2
Date: Mon, 16 Dec 2024 00:21:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:49:58.340224
Title: Dissecting Adversarial Robustness of Multimodal LM Agents
Title（参考訳）: マルチモーダルLM剤の分散対向ロバスト性
Authors: Chen Henry Wu, Rishi Shah, Jing Yu Koh, Ruslan Salakhutdinov, Daniel Fried, Aditi Raghunathan,
Abstract要約: 我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価関数を手動で作成する。ブラックボックスフロンティア LLM を使用する最新のエージェントのレンジを切断できることが分かりました。 AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
参考スコア（独自算出の注目度）: 70.2077308846307
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As language models (LMs) are used to build autonomous agents in real environments, ensuring their adversarial robustness becomes a critical challenge. Unlike chatbots, agents are compound systems with multiple components, which existing LM safety evaluations do not adequately address. To bridge this gap, we manually create 200 targeted adversarial tasks and evaluation functions in a realistic threat model on top of VisualWebArena, a real environment for web-based agents. In order to systematically examine the robustness of various multimodal we agents, we propose the Agent Robustness Evaluation (ARE) framework. ARE views the agent as a graph showing the flow of intermediate outputs between components and decomposes robustness as the flow of adversarial information on the graph. First, we find that we can successfully break a range of the latest agents that use black-box frontier LLMs, including those that perform reflection and tree-search. With imperceptible perturbations to a single product image (less than 5% of total web page pixels), an attacker can hijack these agents to execute targeted adversarial goals with success rates up to 67%. We also use ARE to rigorously evaluate how the robustness changes as new components are added. We find that new components that typically improve benign performance can open up new vulnerabilities and harm robustness. An attacker can compromise the evaluator used by the reflexion agent and the value function of the tree search agent, which increases the attack success relatively by 15% and 20%. Our data and code for attacks, defenses, and evaluation are available at https://github.com/ChenWu98/agent-attack
Abstract（参考訳）: 言語モデル(LM)は、現実の環境で自律的なエージェントを構築するために使用されるため、敵の堅牢性を保証することが重要な課題となる。チャットボットとは異なり、エージェントは複数のコンポーネントを持つ複合システムであり、既存のLM安全性評価は適切に対応していない。このギャップを埋めるため,Web ベースエージェントの現実環境である VisualWebArena 上に,現実的な脅威モデルを用いて,200 個の敵タスクと評価関数を手動で作成する。各種マルチモーダル雑草のロバスト性を系統的に検討するため, エージェントロバストネス評価(ARE)フレームワークを提案する。 AREは、エージェントをコンポーネント間の中間出力の流れを示すグラフと見なし、グラフ上の敵情報のフローとしてロバスト性を分解する。まず、私たちはブラックボックスフロンティアのLSMを使った最新のエージェントを、反射や木探索を行うエージェントを含め、うまく破ることができることに気付きました。単一の製品イメージに対する知覚できない摂動(全Webページピクセルの5%未満)によって、攻撃者はこれらのエージェントをハイジャックして、ターゲットとする敵の目標を最大67%の成功率で実行することができる。 AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。通常、良質なパフォーマンスを改善する新しいコンポーネントは、新たな脆弱性を開き、堅牢性を損なう可能性があることに気付きました。攻撃者は、反射エージェントが使用する評価器と木探索エージェントの値関数を妥協し、攻撃成功率を比較的15%から20%向上させることができる。攻撃、防御、評価のためのデータとコードはhttps://github.com/ChenWu98/agent- attackで利用可能です。

関連論文リスト

AgentArmor: Enforcing Program Analysis on Agent Runtime Trace to Defend Against Prompt Injection [8.266563350981984]
大きな言語モデル(LLM)エージェントは、自然言語推論と外部ツールの実行を組み合わせることで、さまざまな問題を解決するための強力な新しいパラダイムを提供する。本研究では,エージェントランタイムトレースを解析可能なセマンティクスを用いた構造化プログラムとして扱う新しい知見を提案する。本稿では,エージェントトレースをグラフ中間表現に基づく構造化プログラム依存表現に変換するプログラム解析フレームワークであるAgentArmorを提案する。
論文参考訳（メタデータ） (2025-08-02T07:59:34Z)
WebCoT: Enhancing Web Agent Reasoning by Reconstructing Chain-of-Thought in Reflection, Branching, and Rollback [74.82886755416949]
有効なWebエージェントに必要な重要な推論スキルを同定する。我々はエージェントの推論アルゴリズムを連鎖論理に再構成する。このアプローチは、複数のベンチマークで大幅に改善される。
論文参考訳（メタデータ） (2025-05-26T14:03:37Z)
Hidden Ghost Hand: Unveiling Backdoor Vulnerabilities in MLLM-Powered Mobile GUI Agents [19.348335171985152]
MLLMベースのGUIエージェントは、自然に複数の対話レベルのトリガーを公開します。我々はAgentGhostを紹介した。AgentGhostは、バックドア攻撃をリピートするための効果的でステルス的なフレームワークである。 AgentGhostは有効で汎用的であり、攻撃精度は3つの攻撃目標に対して99.7%に達する。
論文参考訳（メタデータ） (2025-05-20T14:29:18Z)
AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文参考訳（メタデータ） (2025-05-09T07:40:17Z)
AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文参考訳（メタデータ） (2025-04-29T17:36:05Z)
WASP: Benchmarking Web Agent Security Against Prompt Injection Attacks [36.97842000562324]
WASPと呼ばれるベンチマークでは、現実的なWebエージェントのハイジャックと、それらをテストするための独立した環境が導入されている。我々の評価は、高度な推論能力を持つモデルに支えられたAIエージェントでさえ、低便宜な人手によるプロンプトインジェクションの影響を受けやすいことを示している。エージェントは16～86%の時間で敵の指示を実行開始するが、0～17%の時間しか目標を達成できない。
論文参考訳（メタデータ） (2025-04-22T17:51:03Z)
Manipulating Multimodal Agents via Cross-Modal Prompt Injection [34.35145839873915]
マルチモーダルエージェントにおいて、これまで見過ごされていた重要なセキュリティ脆弱性を特定します。攻撃者が複数のモードにまたがって敵の摂動を埋め込む新たな攻撃フレームワークであるCrossInjectを提案する。提案手法は既存のインジェクション攻撃よりも優れており,攻撃成功率が少なくとも26.4%向上している。
論文参考訳（メタデータ） (2025-04-19T16:28:03Z)
AgentRewardBench: Evaluating Automatic Evaluations of Web Agent Trajectories [59.214178488091584]
我々は,LLM審査員によるWebエージェント評価の有効性を評価する最初のベンチマークであるAgentRewardBenchを提案する。ベンチマークを用いて,12名のLLM審査員を評価し,全てのベンチマークでLLMが排他的でないことを発見した。また、一般的なベンチマークで使用されるルールベースの評価は、Webエージェントの成功率を過小評価する傾向にあることも見出した。
論文参考訳（メタデータ） (2025-04-11T19:49:22Z)
Get the Agents Drunk: Memory Perturbations in Autonomous Agent-based Recommender Systems [29.35591074298123]
大規模言語モデルベースのエージェントは、パーソナライズされた振る舞いモデリングを実現するために、リコメンデータシステム(Agent4RS)でますます使われている。私たちの知る限りでは、Agent4RSがいかに堅牢かは未解明のままです。本稿では,エージェントの記憶を乱すことによってエージェント4RSを攻撃するための最初の取り組みを提案する。
論文参考訳（メタデータ） (2025-03-31T07:35:40Z)
AdvAgent: Controllable Blackbox Red-teaming on Web Agents [22.682464365220916]
AdvAgentは、Webエージェントを攻撃するためのブラックボックスのレッドチームフレームワークである。強化学習に基づくパイプラインを使用して、敵のプロンプトモデルをトレーニングする。慎重な攻撃設計では、エージェントの弱点を効果的に活用し、ステルス性と制御性を維持する。
論文参考訳（メタデータ） (2024-10-22T20:18:26Z)
Imprompter: Tricking LLM Agents into Improper Tool Use [35.255462653237885]
大規模言語モデル(LLM)エージェントは、生成機械学習とコードインタプリタ、Webブラウジング、メール、より一般的には外部リソースなどのツールを融合した、新興コンピューティングパラダイムである。我々はエージェントベースのシステムのセキュリティ基盤に貢献し、自動的に計算された難読化された敵攻撃の新しいクラスを探索する。
論文参考訳（メタデータ） (2024-10-19T01:00:57Z)
Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。 55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文参考訳（メタデータ） (2024-10-14T17:57:02Z)
Derail Yourself: Multi-turn LLM Jailbreak Attack through Self-discovered Clues [88.96201324719205]
本研究では,マルチターンインタラクションにおけるLarge Language Models(LLM)の安全性の脆弱性を明らかにする。本稿ではアクターネットワーク理論に触発された新しいマルチターン攻撃手法であるActorAttackを紹介する。
論文参考訳（メタデータ） (2024-10-14T16:41:49Z)
AnyAttack: Towards Large-scale Self-supervised Generation of Targeted Adversarial Examples for Vision-Language Models [41.044385916368455]
VLM(Vision-Language Models)は、画像ベースの敵攻撃に対して脆弱である。本稿では,ラベル管理なしでVLMのターゲット画像を生成する自己教師型フレームワークであるAnyAttackを提案する。
論文参考訳（メタデータ） (2024-10-07T09:45:18Z)
On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。しかし、不器用なエージェントや悪意のあるエージェントがシステム全体のパフォーマンスに与える影響は、まだ解明されていない。本稿では, 種々のシステム構造の耐震性について考察する。
論文参考訳（メタデータ） (2024-08-02T03:25:20Z)
AgentDojo: A Dynamic Environment to Evaluate Prompt Injection Attacks and Defenses for LLM Agents [27.701301913159067]
我々は、信頼できないデータ上でツールを実行するエージェントの評価フレームワークであるAgentDojoを紹介した。 AgentDojoは静的テストスイートではなく、新しいエージェントタスク、ディフェンス、アダプティブアタックを設計、評価するための環境である。 AgentDojoには97の現実的なタスク、629のセキュリティテストケースと、文献からのさまざまな攻撃および防御パラダイムが組み込まれています。
論文参考訳（メタデータ） (2024-06-19T08:55:56Z)
White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文参考訳（メタデータ） (2024-05-28T07:13:30Z)
VL-Trojan: Multimodal Instruction Backdoor Attacks against Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。近年,マルチモーダル・インストラクション・チューニングが提案されている。敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文参考訳（メタデータ） (2024-02-21T14:54:30Z)
Shadowcast: Stealthy Data Poisoning Attacks Against Vision-Language Models [73.37389786808174]
この研究は、Vision-Language Modelsのデータ中毒攻撃に対する感受性を明らかにするための第一歩となる。そこで我々はShadowcastを紹介した。これは、毒のサンプルが良心的な画像と視覚的に区別できない、ステルスなデータ中毒攻撃である。そこで我々は,シャドウキャストが50件の毒のサンプルを用いて攻撃者の意図を効果的に達成していることを示す。
論文参考訳（メタデータ） (2024-02-05T18:55:53Z)
Vision-LLMs Can Fool Themselves with Self-Generated Typographic Attacks [62.34019142949628]
誤読テキストを画像に貼り付けるタイポグラフィーアタックは、CLIPのようなビジョンランゲージモデルの性能を損なうことが知られている。我々は、LVLMが自身に対する攻撃を発生させる2つの新しい、より効果的なTextitSelf-Generated攻撃を導入する。ベンチマークにより,自己生成攻撃が重大な脅威となり,LVLM(s)分類性能が最大33%低下することが判明した。
論文参考訳（メタデータ） (2024-02-01T14:41:20Z)
InstructTA: Instruction-Tuned Targeted Attack for Large Vision-Language Models [13.21813503235793]
大規模視覚言語モデル(LVLM)は、画像理解と応答生成において、その驚くべき能力を示した。本稿では,被害者LVLMの視覚エンコーダのみを敵が知ることのできる,新規で実用的な攻撃シナリオを定式化する。本研究では,LVLMに対して高い転送性を有する目標対向攻撃を実現するために,命令調整型ターゲットアタック(dubed textscInstructTA)を提案する。
論文参考訳（メタデータ） (2023-12-04T13:40:05Z)
Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。 MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文参考訳（メタデータ） (2023-10-18T11:36:42Z)
How Robust is Google's Bard to Adversarial Image Attacks? [45.92999116520135]
テキストや他のモダリティ(特に視覚)を統合するマルチモーダル大規模言語モデル(MLLM)は、様々なマルチモーダルタスクにおいて前例のない性能を達成している。しかし、ビジョンモデルの非解決対向ロバスト性問題により、MLLMはより厳しい安全性とセキュリティリスクを負う可能性がある。商用MLLMの脆弱性をよりよく理解するために,GoogleのBardの対角的堅牢性について検討する。
論文参考訳（メタデータ） (2023-09-21T03:24:30Z)
Image Hijacks: Adversarial Images can Control Generative Models at Runtime [8.603201325413192]
推論時に視覚言語モデルの振る舞いを制御する画像ハイジャック, 逆画像を検出する。 Prompt Matching法を考案し、任意のユーザ定義テキストプロンプトの動作にマッチしたハイジャックをトレーニングする。我々は、Behaviour Matchingを使って、4種類の攻撃に対してハイジャックを作らせ、VLMは敵の選択の出力を生成し、コンテキストウィンドウから情報をリークし、安全トレーニングをオーバーライドし、偽の声明を信じるように強制する。
論文参考訳（メタデータ） (2023-09-01T03:53:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。