論文の概要: MAGIC: Mastering Physical Adversarial Generation in Context through Collaborative LLM Agents
- arxiv url: http://arxiv.org/abs/2412.08014v1
- Date: Wed, 11 Dec 2024 01:41:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:03:56.877602
- Title: MAGIC: Mastering Physical Adversarial Generation in Context through Collaborative LLM Agents
- Title(参考訳): MAGIC:協調LDMエージェントによる物理的逆転生成の習得
- Authors: Yun Xing, Nhat Chung, Jie Zhang, Yue Cao, Ivor Tsang, Yang Liu, Lei Ma, Qing Guo,
- Abstract要約: 物理的敵攻撃をワンショットパッチ生成問題として再検討する。
提案手法は, 深い生成モデルを用いて, 対向パッチを生成する。
マルチモーダル LLM エージェントを用いた新しいフレームワーク MAGIC を提案する。
- 参考スコア(独自算出の注目度): 18.1558732924808
- License:
- Abstract: Physical adversarial attacks in driving scenarios can expose critical vulnerabilities in visual perception models. However, developing such attacks remains challenging due to diverse real-world backgrounds and the requirement for maintaining visual naturality. Building upon this challenge, we reformulate physical adversarial attacks as a one-shot patch-generation problem. Our approach generates adversarial patches through a deep generative model that considers the specific scene context, enabling direct physical deployment in matching environments. The primary challenge lies in simultaneously achieving two objectives: generating adversarial patches that effectively mislead object detection systems while determining contextually appropriate placement within the scene. We propose MAGIC (Mastering Physical Adversarial Generation In Context), a novel framework powered by multi-modal LLM agents to address these challenges. MAGIC automatically understands scene context and orchestrates adversarial patch generation through the synergistic interaction of language and vision capabilities. MAGIC orchestrates three specialized LLM agents: The adv-patch generation agent (GAgent) masters the creation of deceptive patches through strategic prompt engineering for text-to-image models. The adv-patch deployment agent (DAgent) ensures contextual coherence by determining optimal placement strategies based on scene understanding. The self-examination agent (EAgent) completes this trilogy by providing critical oversight and iterative refinement of both processes. We validate our method on both digital and physical level, \ie, nuImage and manually captured real scenes, where both statistical and visual results prove that our MAGIC is powerful and effectively for attacking wide-used object detection systems.
- Abstract(参考訳): 運転シナリオにおける物理的敵対攻撃は、視覚知覚モデルにおいて重大な脆弱性を露呈する可能性がある。
しかし、現実世界の多様な背景と視覚的自然性を維持する必要性のため、このような攻撃の開発は依然として困難である。
この課題を生かして、1ショットのパッチ生成問題として物理的敵攻撃を再構成する。
提案手法は,特定のシーンコンテキストを考慮した深層生成モデルを用いて逆パッチを生成し,マッチング環境における直接的物理的配置を可能にする。
主な課題は2つの目標を同時に達成することである: シーン内の適切な配置を判断しながら、オブジェクト検出システムを効果的に誤解させる敵パッチを生成する。
本稿では,これらの課題に対処するために,マルチモーダルLLMエージェントを利用した新しいフレームワークMAGICを提案する。
MAGICはシーンコンテキストを自動で理解し、言語と視覚機能の相乗的相互作用を通じて敵パッチ生成をオーケストレーションする。
adv-patch生成エージェント(GAgent)は、テキスト・ツー・イメージモデルのための戦略的プロンプトエンジニアリングを通じて、偽のパッチの作成をマスターする。
adv-patchデプロイメントエージェント(DAgent)は、シーン理解に基づいて最適な配置戦略を決定することにより、コンテキストコヒーレンスを保証する。
自己検査剤(EAgent)は、この三部作を、両プロセスの重要な監視と反復的な洗練を提供することで完成させる。
提案手法は,デジタルおよび物理レベル, nuImage, 手動で撮影した実写シーンで検証し, 統計的および視覚的両方の結果から, MAGICが強力かつ効果的に広範に使用されている物体検出システムを攻撃することが証明された。
関連論文リスト
- SceneTAP: Scene-Coherent Typographic Adversarial Planner against Vision-Language Models in Real-World Environments [29.107550321162122]
本稿では,先進的な視覚言語モデルに誤解をもたらすような,シーンコヒーレントな対角攻撃を生成するための最初のアプローチを提案する。
提案手法は,どのテキストを生成するか,どのテキストをシーンに配置するか,どのようにシームレスに統合するかという,3つの重要な問題に対処する。
実験の結果,我々のシーンコヒーレントな敵対的テキストは,最先端のLVLMを誤解させることに成功した。
論文 参考訳(メタデータ) (2024-11-28T05:55:13Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Safeguarding Vision-Language Models Against Patched Visual Prompt Injectors [31.383591942592467]
視覚言語モデル(VLM)は、視覚とテキストのデータを組み合わせて理解と相互作用を強化する革新的な方法を提供する。
パッチベースの敵攻撃は、物理的な視覚応用において最も現実的な脅威モデルと考えられている。
本研究では,スムージング技術に根ざした防御機構であるSmoothVLMを導入し,VLMをパッチ付き視覚プロンプトインジェクタの脅威から保護する。
論文 参考訳(メタデータ) (2024-05-17T04:19:19Z) - Adversarial Robustness for Visual Grounding of Multimodal Large Language Models [49.71757071535619]
MLLM(Multi-modal Large Language Models)は近年,様々な視覚言語タスクのパフォーマンス向上を実現している。
MLLMでは、視覚的グラウンドリングの対角的堅牢性は未発見のままである。
本稿では,次の3つの攻撃パラダイムを提案する。
論文 参考訳(メタデータ) (2024-05-16T10:54:26Z) - Empowering Embodied Visual Tracking with Visual Foundation Models and Offline RL [19.757030674041037]
身体的視覚追跡は、エンボディードエージェントにとって不可欠で挑戦的なスキルである。
既存の手法では、非効率なトレーニングや一般化の欠如に悩まされている。
視覚基盤モデルとオフライン強化学習を組み合わせた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-15T15:12:53Z) - Few-Shot Adversarial Prompt Learning on Vision-Language Models [62.50622628004134]
知覚不能な逆境摂動に対するディープニューラルネットワークの脆弱性は、広く注目を集めている。
それまでの努力は、相手の視覚的特徴をテキストの監督と整合させることで、ゼロショットの敵の堅牢性を達成した。
本稿では、限られたデータで入力シーケンスを適応させることで、対向性を大幅に向上させる、数ショットの対向的プロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-21T18:28:43Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - Effective Unsupervised Domain Adaptation with Adversarially Trained
Language Models [54.569004548170824]
注意的なマスキング戦略は、マスキングされた言語モデルの知識ギャップを橋渡しできることを示す。
本稿では,これらのトークンを逆さまにマスキングすることで効果的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-10-05T01:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。