論文の概要: TRAP: Targeted Redirecting of Agentic Preferences
- arxiv url: http://arxiv.org/abs/2505.23518v1
- Date: Thu, 29 May 2025 14:57:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.920152
- Title: TRAP: Targeted Redirecting of Agentic Preferences
- Title(参考訳): TRAP: エージェント優先のターゲットリダイレクト
- Authors: Hangoo Kang, Jehyeok Yeon, Gagandeep Singh,
- Abstract要約: 本稿では,拡散型セマンティックインジェクションを用いてエージェントの意思決定を制御する,生成的敵対的フレームワークであるTRAPを紹介する。
提案手法は, 負のプロンプトに基づく劣化と正のセマンティック最適化を組み合わせ, シームズ意味ネットワークとレイアウト対応空間マスキングによって導かれる。
TRAPはLLaVA-34B、Gemma3、Mistral-3.1など主要なモデルで100%の攻撃成功率を達成した。
- 参考スコア(独自算出の注目度): 3.6293956720749425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous agentic AI systems powered by vision-language models (VLMs) are rapidly advancing toward real-world deployment, yet their cross-modal reasoning capabilities introduce new attack surfaces for adversarial manipulation that exploit semantic reasoning across modalities. Existing adversarial attacks typically rely on visible pixel perturbations or require privileged model or environment access, making them impractical for stealthy, real-world exploitation. We introduce TRAP, a generative adversarial framework that manipulates the agent's decision-making using diffusion-based semantic injections. Our method combines negative prompt-based degradation with positive semantic optimization, guided by a Siamese semantic network and layout-aware spatial masking. Without requiring access to model internals, TRAP produces visually natural images yet induces consistent selection biases in agentic AI systems. We evaluate TRAP on the Microsoft Common Objects in Context (COCO) dataset, building multi-candidate decision scenarios. Across these scenarios, TRAP achieves a 100% attack success rate on leading models, including LLaVA-34B, Gemma3, and Mistral-3.1, significantly outperforming baselines such as SPSA, Bandit, and standard diffusion approaches. These results expose a critical vulnerability: Autonomous agents can be consistently misled through human-imperceptible cross-modal manipulations. These findings highlight the need for defense strategies beyond pixel-level robustness to address semantic vulnerabilities in cross-modal decision-making.
- Abstract(参考訳): 視覚言語モデル(VLM)を利用した自律エージェントAIシステムは、現実のデプロイメントに向けて急速に進歩しているが、そのクロスモーダル推論能力は、モダリティを越えたセマンティック推論を利用する敵操作のための新たなアタックサーフェスを導入している。
既存の敵攻撃は、通常、目に見えるピクセルの摂動に依存するか、特権モデルや環境アクセスを必要とする。
本稿では,拡散型セマンティックインジェクションを用いてエージェントの意思決定を制御する,生成的敵対的フレームワークであるTRAPを紹介する。
提案手法は, 負のプロンプトに基づく劣化と正のセマンティック最適化を組み合わせ, シームズ意味ネットワークとレイアウト対応空間マスキングによって導かれる。
TRAPはモデル内部へのアクセスを必要としないため、視覚的に自然なイメージを生成するが、エージェントAIシステムでは一貫した選択バイアスを生じさせる。
我々は、Microsoft Common Objects in Context (COCO)データセット上でTRAPを評価し、多候補決定シナリオを構築する。
これらのシナリオ全体で、TRAPはLLaVA-34B、Gemma3、Mistral-3.1を含む主要なモデルで100%の攻撃成功率を獲得し、SPSA、Bandit、標準拡散アプローチなどのベースラインを著しく上回っている。
これらの結果は、重大な脆弱性を露呈している: 自律的なエージェントは、人間が認識できないクロスモーダル操作によって一貫して誤解される。
これらの知見は, クロスモーダルな意思決定において, セマンティックな脆弱性に対処するために, ピクセルレベルの堅牢性を超えた防衛戦略の必要性を浮き彫りにしている。
関連論文リスト
- Transferable Adversarial Attacks on SAM and Its Downstream Models [87.23908485521439]
本稿では,セグメント・アプライス・モデル(SAM)から微調整した様々な下流モデルに対する敵攻撃の可能性について検討する。
未知のデータセットを微調整したモデルに対する敵攻撃の有効性を高めるために,ユニバーサルメタ初期化(UMI)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T15:04:04Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - LEAT: Towards Robust Deepfake Disruption in Real-World Scenarios via
Latent Ensemble Attack [11.764601181046496]
生成モデルによって作成された悪意のある視覚コンテンツであるディープフェイクは、社会にますます有害な脅威をもたらす。
近年のディープフェイクの損傷を積極的に軽減するために, 逆方向の摂動を用いてディープフェイクモデルの出力を妨害する研究が進められている。
そこで本研究では,Latent Ensemble ATtack (LEAT) と呼ばれる簡易かつ効果的なディスラプション手法を提案する。
論文 参考訳(メタデータ) (2023-07-04T07:00:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。