論文の概要: AgentTypo: Adaptive Typographic Prompt Injection Attacks against Black-box Multimodal Agents
- arxiv url: http://arxiv.org/abs/2510.04257v1
- Date: Sun, 05 Oct 2025 15:46:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.545182
- Title: AgentTypo: Adaptive Typographic Prompt Injection Attacks against Black-box Multimodal Agents
- Title(参考訳): AgentTypo: ブラックボックスマルチモーダルエージェントに対する適応型タイポグラフィープロンプトインジェクション
- Authors: Yanjie Li, Yiming Cao, Dong Wang, Bin Xiao,
- Abstract要約: 我々は、最適化されたテキストをWebページイメージに埋め込むことで、適応型タイポグラフィーインジェクションを組み込むフレームワークであるAgentTypoを紹介する。
我々のATPIアルゴリズムは,スチールスロスによる人体検出性を最小化しながらキャプタを置換することで,迅速な再構築を最大化する。
我々はまた,複数LLMシステムであるAgentTypo-proを開発し,評価フィードバックを用いてインジェクションプロンプトを反復的に洗練し,連続学習における過去の事例を検索する。
- 参考スコア(独自算出の注目度): 22.88469633141419
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal agents built on large vision-language models (LVLMs) are increasingly deployed in open-world settings but remain highly vulnerable to prompt injection, especially through visual inputs. We introduce AgentTypo, a black-box red-teaming framework that mounts adaptive typographic prompt injection by embedding optimized text into webpage images. Our automatic typographic prompt injection (ATPI) algorithm maximizes prompt reconstruction by substituting captioners while minimizing human detectability via a stealth loss, with a Tree-structured Parzen Estimator guiding black-box optimization over text placement, size, and color. To further enhance attack strength, we develop AgentTypo-pro, a multi-LLM system that iteratively refines injection prompts using evaluation feedback and retrieves successful past examples for continual learning. Effective prompts are abstracted into generalizable strategies and stored in a strategy repository, enabling progressive knowledge accumulation and reuse in future attacks. Experiments on the VWA-Adv benchmark across Classifieds, Shopping, and Reddit scenarios show that AgentTypo significantly outperforms the latest image-based attacks such as AgentAttack. On GPT-4o agents, our image-only attack raises the success rate from 0.23 to 0.45, with consistent results across GPT-4V, GPT-4o-mini, Gemini 1.5 Pro, and Claude 3 Opus. In image+text settings, AgentTypo achieves 0.68 ASR, also outperforming the latest baselines. Our findings reveal that AgentTypo poses a practical and potent threat to multimodal agents and highlight the urgent need for effective defense.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)上に構築されたマルチモーダルエージェントは、オープンワールド設定にますますデプロイされているが、特に視覚入力を通じて、インジェクションのプロンプトに対して非常に脆弱である。
我々は、最適化されたテキストをWebページイメージに埋め込み、適応型タイポグラフィーインジェクションをマウントする、ブラックボックスのレッドチームフレームワークであるAgentTypoを紹介する。
我々のATPIアルゴリズムは,文字配置,サイズ,色に対するブラックボックス最適化を指導する木構造パーゼン推定器を用いて,キャプタを置換し,人間の検出可能性を最小限に抑えつつ,迅速な再構築を最大化する。
攻撃強度をさらに高めるため,複数LLMシステムであるAgentTypo-proを開発した。
効果的なプロンプトは一般化可能な戦略に抽象化され、ストラテジリポジトリに格納される。
Classifieds、Shopping、RedditシナリオにわたるVWA-Advベンチマークの実験では、AgentTypoがAgentAttackのような最新のイメージベースの攻撃よりも大幅に優れていることが示されている。
GPT-4oエージェントでは、画像のみの攻撃により、GPT-4V、GPT-4o-mini、Gemini 1.5 Pro、Claude 3 Opusにまたがる成功率が0.23から0.45に上昇する。
Image+text設定では、AgentTypoは0.68のASRを獲得し、最新のベースラインを上回っている。
以上の結果から,AgentTypoはマルチモーダルエージェントに対して実用的で強力な脅威となり,効果的な防御の必要性が強調された。
関連論文リスト
- Image-based Prompt Injection: Hijacking Multimodal LLMs through Visually Embedded Adversarial Instructions [7.575333495550402]
画像ベースプロンプトインジェクション (IPI) は, 逆方向の命令を自然な画像に埋め込んでモデル動作をオーバーライドするブラックボックス攻撃である。
エンドツーエンドのIPIパイプラインには、セグメンテーションベースの領域選択、適応フォントスケーリング、バックグラウンド認識レンダリングが組み込まれています。
論文 参考訳(メタデータ) (2026-03-04T01:58:08Z) - Automating Agent Hijacking via Structural Template Injection [18.856564341900555]
エージェントハイジャックは、Large Language Model (LLM)エコシステムにとって重要な脅威であり、悪意のある命令を検索されたコンテンツに注入することで、敵が実行を操作できるようにする。
LLMエージェントの基本的構造機構をターゲットにした自動エージェントハイジャックフレームワークPhantomを提案する。
最適化されたテンプレートを検索されたコンテキストに注入することにより、ロールの混乱を誘発し、インジェクトされたコンテンツを正規のユーザ命令や以前のツール出力と誤解釈させる。
論文 参考訳(メタデータ) (2026-02-18T23:52:14Z) - SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。
フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。
本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-02-15T16:09:48Z) - SCOPE: Prompt Evolution for Enhancing Agent Effectiveness [53.75986399936395]
大規模言語モデル(LLM)エージェントは、大規模で動的なコンテキストを生成する環境にますますデプロイされている。
エージェントはこのコンテキストにアクセスできますが、静的なプロンプトには効果的に管理するメカニズムがありません。
textbfSCOPE (Self-evolving Context Optimization via Prompt Evolution) を導入する。
本稿では,戦術的特異性(即時誤りの解消)と戦略的汎用性(長期原則の進化)のバランスをとるデュアルストリーム機構を提案する。
論文 参考訳(メタデータ) (2025-12-17T12:25:05Z) - Backdoor Attacks on Open Vocabulary Object Detectors via Multi-Modal Prompt Tuning [5.0734761482919115]
オープン語彙オブジェクト検出器(OVOD)は、視覚と言語を統一し、テキストプロンプトに基づいて任意のオブジェクトカテゴリを検出する。
我々は,OVODに対するバックドアアタックの最初の研究を行い,即時チューニングによって導入された新たなアタックサーフェスを明らかにする。
論文 参考訳(メタデータ) (2025-11-16T19:05:31Z) - Poison Once, Control Anywhere: Clean-Text Visual Backdoors in VLM-based Mobile Agents [54.35629963816521]
この研究は、VLMベースのモバイルエージェントをターゲットにした最初のクリーンテキストバックドアアタックであるVIBMAを紹介する。
この攻撃は、視覚的な入力だけを変更することによって、悪意ある振る舞いをモデルに注入する。
クリーンタスクの動作を保ちながら高い成功率を達成できることを示す。
論文 参考訳(メタデータ) (2025-06-16T08:09:32Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Manipulating Multimodal Agents via Cross-Modal Prompt Injection [34.35145839873915]
マルチモーダルエージェントにおいて、これまで見過ごされていた重要なセキュリティ脆弱性を特定します。
攻撃者が複数のモードにまたがって敵の摂動を埋め込む新たな攻撃フレームワークであるCrossInjectを提案する。
本手法は,攻撃成功率を少なくとも30.1%向上させることで,最先端の攻撃よりも優れる。
論文 参考訳(メタデータ) (2025-04-19T16:28:03Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。