論文の概要: Evaluating the Robustness of Multimodal Agents Against Active Environmental Injection Attacks
- arxiv url: http://arxiv.org/abs/2502.13053v2
- Date: Tue, 22 Apr 2025 02:58:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-23 19:51:40.228117
- Title: Evaluating the Robustness of Multimodal Agents Against Active Environmental Injection Attacks
- Title(参考訳): アクティブ環境注入攻撃に対するマルチモーダルエージェントのロバスト性評価
- Authors: Yurun Chen, Xavier Hu, Keting Yin, Juncheng Li, Shengyu Zhang,
- Abstract要約: 本研究では,AIエージェントが環境中の「インポスタ」を検出する能力について検討した。
重大な脅威攻撃者は、悪意のある攻撃を環境要素として偽装し、エージェントの実行プロセスにアクティブな障害を注入することができる。
AEIA-MNは,MLLMをベースとしたエージェントのロバスト性を評価するために,モバイルオペレーティングシステムのインタラクション脆弱性を利用する攻撃手法である。
- 参考スコア(独自算出の注目度): 7.480236701595425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As researchers continue to optimize AI agents for more effective task execution within operating systems, they often overlook a critical security concern: the ability of these agents to detect "impostors" within their environment. Through an analysis of the agents' operational context, we identify a significant threat-attackers can disguise malicious attacks as environmental elements, injecting active disturbances into the agents' execution processes to manipulate their decision-making. We define this novel threat as the Active Environment Injection Attack (AEIA). Focusing on the interaction mechanisms of the Android OS, we conduct a risk assessment of AEIA and identify two critical security vulnerabilities: (1) Adversarial content injection in multimodal interaction interfaces, where attackers embed adversarial instructions within environmental elements to mislead agent decision-making; and (2) Reasoning gap vulnerabilities in the agent's task execution process, which increase susceptibility to AEIA attacks during reasoning. To evaluate the impact of these vulnerabilities, we propose AEIA-MN, an attack scheme that exploits interaction vulnerabilities in mobile operating systems to assess the robustness of MLLM-based agents. Experimental results show that even advanced MLLMs are highly vulnerable to this attack, achieving a maximum attack success rate of 93% on the AndroidWorld benchmark by combining two vulnerabilities.
- Abstract(参考訳): 研究者たちは、AIエージェントをオペレーティングシステム内でより効果的なタスク実行に最適化し続けています。
エージェントの運用状況を分析して、悪意のある攻撃を環境要素として偽装し、エージェントの実行プロセスにアクティブな障害を注入して意思決定を操作できる重要な脅威攻撃者を特定する。
我々はこの新たな脅威をアクティブ環境注入攻撃 (AEIA) と定義する。
我々は,Android OSのインタラクションメカニズムに着目し,AEIAのリスク評価を行い,(1)攻撃者が環境要素内に敵の指示を埋め込んでエージェントのタスク実行プロセスにおけるギャップの脆弱性を推論し,AEIA攻撃に対する感受性を高めるマルチモーダルインタラクションインタフェースにおける敵のコンテンツ注入の2つの重要なセキュリティ脆弱性を特定する。
これらの脆弱性の影響を評価するために,モバイルオペレーティングシステムにおけるインタラクション脆弱性を利用した攻撃手法であるAEIA-MNを提案し,MLLMベースのエージェントの堅牢性を評価する。
実験の結果、高度なMLLMでさえこの攻撃に対して非常に脆弱であることを示し、2つの脆弱性を組み合わせることで、AndroidWorldベンチマークで最大93%の攻撃成功率を達成した。
関連論文リスト
- Real AI Agents with Fake Memories: Fatal Context Manipulation Attacks on Web3 Agents [36.49717045080722]
本稿では,ブロックチェーンベースの金融エコシステムにおけるAIエージェントの脆弱性を,現実のシナリオにおける敵対的脅威に曝露した場合に検討する。
我々は、保護されていないコンテキスト表面を利用する包括的攻撃ベクトルであるコンテキスト操作の概念を導入する。
これらの脆弱性を定量化するために、コンテキスト操作攻撃に対するAIエージェントの堅牢性を評価するWeb3ドメイン固有のベンチマークであるCrAIBenchを設計する。
論文 参考訳(メタデータ) (2025-03-20T15:44:31Z) - Multi-Agent Security Tax: Trading Off Security and Collaboration Capabilities in Multi-Agent Systems [1.2564343689544843]
我々は、セキュリティリスクとトレードオフを研究するために、共有目的に基づいて協力するAIエージェントのシミュレーションを開発する。
我々は、悪意のある指示の多重ホップ拡散という、感染した悪意のあるプロンプトを観察する。
この結果から,マルチエージェントシステムにおけるセキュリティと協調効率のトレードオフの可能性が示唆された。
論文 参考訳(メタデータ) (2025-02-26T14:00:35Z) - Multi-Agent Risks from Advanced AI [90.74347101431474]
先進的なAIのマルチエージェントシステムは、新規で未発見のリスクを生じさせる。
エージェントのインセンティブに基づく3つの重要な障害モードと7つの重要なリスク要因を同定する。
各リスクのいくつかの重要な事例と、それらを緩和するための有望な方向性を強調します。
論文 参考訳(メタデータ) (2025-02-19T23:03:21Z) - MELON: Indirect Prompt Injection Defense via Masked Re-execution and Tool Comparison [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱である。
我々は新しいIPI防御であるMELONを提示する。
MELONは攻撃防止と実用保存の両方においてSOTA防御に優れていた。
論文 参考訳(メタデータ) (2025-02-07T18:57:49Z) - Black-Box Adversarial Attack on Vision Language Models for Autonomous Driving [65.61999354218628]
我々は、自律運転システムにおいて、視覚言語モデル(VLM)をターゲットとしたブラックボックス敵攻撃を設計する第一歩を踏み出す。
セマンティクスの生成と注入による低レベル推論の分解を目標とするカスケーディング・アディバーショナル・ディスラプション(CAD)を提案する。
本稿では,高レベルリスクシナリオの理解と構築に代理VLMを活用することで,動的適応に対処するリスクシーンインジェクションを提案する。
論文 参考訳(メタデータ) (2025-01-23T11:10:02Z) - Hijacking Vision-and-Language Navigation Agents with Adversarial Environmental Attacks [12.96291706848273]
VLN(Vision-and-Language Navigation)は、視覚・言語ナビゲーションのタスク。
ホワイトボックスの敵攻撃は、事前訓練されたVLNエージェントの望ましい行動を引き起こすために開発された。
攻撃は早期終了行動を引き起こすか、攻撃者が定義した多段階軌道に沿ってエージェントを分散させることができる。
論文 参考訳(メタデータ) (2024-12-03T19:54:32Z) - Breaking ReAct Agents: Foot-in-the-Door Attack Will Get You In [5.65782619470663]
本稿では,直感的かつ効果的な手法でReActエージェントをどのように活用できるかを検討する。
実験の結果,間接的プロンプトインジェクション攻撃は,後続の悪意ある行為を行うエージェントの可能性を著しく高めることができることがわかった。
この脆弱性を軽減するために,エージェントが実行中の動作の安全性を再評価する簡単なリフレクション機構の実装を提案する。
論文 参考訳(メタデータ) (2024-10-22T12:24:41Z) - HAICOSYSTEM: An Ecosystem for Sandboxing Safety Risks in Human-AI Interactions [76.42274173122328]
本稿では,多様な複雑な社会的相互作用におけるAIエージェントの安全性を調べるフレームワークであるHAICOSYSTEMを提案する。
私たちは7つの領域(医療、金融、教育など)にわたる92のシナリオに基づいて1840のシミュレーションを実行します。
我々の実験は、最先端のLSMは、プロプライエタリかつオープンソースの両方で、50%以上のケースで安全リスクを示すことを示した。
論文 参考訳(メタデータ) (2024-09-24T19:47:21Z) - Safeguarding AI Agents: Developing and Analyzing Safety Architectures [0.0]
本稿では,人間チームと連携するAIシステムにおける安全対策の必要性について論じる。
我々は,AIエージェントシステムにおける安全プロトコルを強化する3つのフレームワークを提案し,評価する。
これらのフレームワークはAIエージェントシステムの安全性とセキュリティを大幅に強化することができると結論付けている。
論文 参考訳(メタデータ) (2024-09-03T10:14:51Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - Breaking Agents: Compromising Autonomous LLM Agents Through Malfunction Amplification [35.16099878559559]
大規模言語モデル(LLM)は大きな発展を遂げ、現実世界のアプリケーションにデプロイされている。
エージェントが繰り返しまたは無関係なアクションを実行することを誤解させることで誤動作を引き起こす新しいタイプの攻撃を導入する。
実験の結果、これらの攻撃は複数のシナリオで80%以上の障害率を誘導できることがわかった。
論文 参考訳(メタデータ) (2024-07-30T14:35:31Z) - Can We Trust Embodied Agents? Exploring Backdoor Attacks against Embodied LLM-based Decision-Making Systems [27.316115171846953]
大規模言語モデル(LLM)は、実世界のAI意思決定タスクにおいて大きな可能性を示している。
LLMは、固有の常識と推論能力を活用するために微調整され、特定の用途に適合する。
この微調整プロセスは、特に安全クリティカルなサイバー物理システムにおいて、かなりの安全性とセキュリティの脆弱性をもたらす。
論文 参考訳(メタデータ) (2024-05-27T17:59:43Z) - Highlighting the Safety Concerns of Deploying LLMs/VLMs in Robotics [54.57914943017522]
本稿では,大規模言語モデル (LLMs) と視覚言語モデル (VLMs) をロボティクスアプリケーションに統合する際のロバスト性と安全性に関する重要な課題を強調する。
論文 参考訳(メタデータ) (2024-02-15T22:01:45Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - Raij\=u: Reinforcement Learning-Guided Post-Exploitation for Automating
Security Assessment of Network Systems [0.0]
Raij=uフレームワークは強化学習駆動の自動化アプローチである。
我々は2つのRLアルゴリズムを実装し、知的行動を行うことのできる特殊エージェントを訓練する。
エージェントは55段階未満の攻撃で84%以上の攻撃を成功させる。
論文 参考訳(メタデータ) (2023-09-27T09:36:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。