論文の概要: Revealing Physical-World Semantic Vulnerabilities: Universal Adversarial Patches for Infrared Vision-Language Models
- arxiv url: http://arxiv.org/abs/2604.03117v1
- Date: Fri, 03 Apr 2026 15:42:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.515022
- Title: Revealing Physical-World Semantic Vulnerabilities: Universal Adversarial Patches for Infrared Vision-Language Models
- Title(参考訳): 物理世界におけるセマンティック・脆弱性の解明:赤外線ビジョンランゲージモデルのためのユニバーサル・アドバイサル・パッチ
- Authors: Chengyin Hu, Yuxian Dong, Yikun Guo, Xiang Chen, Junqi Wu, Jiahuan Long, Yiwei Wei, Tingsong Jiang, Wen Yao,
- Abstract要約: 近赤外視覚言語モデル(IR-VLM)は、低可視環境におけるマルチモーダル知覚のための有望なパラダイムとして登場した。
既存の逆パッチ法は主にRGBベースのモデル用にクローズドセット設定で設計されている。
我々は、IR-VLMのためのユニバーサル物理対向パッチフレームワークであるユニバーサルカーブグリッドパッチ(UCGP)を提案する。
- 参考スコア(独自算出の注目度): 21.429674567539607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Infrared vision-language models (IR-VLMs) have emerged as a promising paradigm for multimodal perception in low-visibility environments, yet their robustness to adversarial attacks remains largely unexplored. Existing adversarial patch methods are mainly designed for RGB-based models in closed-set settings and are not readily applicable to the open-ended semantic understanding and physical deployment requirements of infrared VLMs. To bridge this gap, we propose Universal Curved-Grid Patch (UCGP), a universal physical adversarial patch framework for IR-VLMs. UCGP integrates Curved-Grid Mesh (CGM) parameterization for continuous, low-frequency, and deployable patch generation with a unified representation-driven objective that promotes subspace departure, topology disruption, and stealth. To improve robustness under real-world deployment and domain shift, we further incorporate Meta Differential Evolution and EOT-augmented TPS deformation modeling. Rather than manipulating labels or prompts, UCGP directly disrupts the visual representation space, weakening cross-modal semantic alignment. Extensive experiments demonstrate that UCGP consistently compromises semantic understanding across diverse IR-VLM architectures while maintaining cross-model transferability, cross-dataset generalization, real-world physical effectiveness, and robustness against defenses. These findings reveal a previously overlooked robustness vulnerability in current infrared multimodal systems.
- Abstract(参考訳): 赤外線視覚言語モデル(IR-VLM)は、低視認性環境でのマルチモーダル知覚のための有望なパラダイムとして登場したが、敵の攻撃に対する堅牢性はほとんど未解明のままである。
既存の逆パッチ方式は、主にRGBベースのモデルに対して、クローズドセット設定で設計されており、オープンエンドセマンティック理解や赤外線VLMの物理展開要求に容易に適用できない。
このギャップを埋めるために、IR-VLMのためのユニバーサル物理対向パッチフレームワークであるユニバーサルカーブグリッドパッチ(UCGP)を提案する。
UCGPは、連続、低周波、デプロイ可能なパッチ生成のためのCurved-Grid Mesh(CGM)パラメータ化と、サブスペースの離脱、トポロジの破壊、ステルスを促進する統一された表現駆動の目的を統合している。
実世界の展開とドメインシフト下でのロバスト性を改善するため,メタ微分進化とEOTによるTPS変形モデリングをさらに取り入れた。
ラベルやプロンプトを操作する代わりに、UCGPは視覚表現空間を直接破壊し、モーダル間のセマンティックアライメントを弱める。
広範囲にわたる実験により、UCGPは多種多様なIR-VLMアーキテクチャのセマンティック理解を一貫して損なうとともに、クロスモデル転送可能性、クロスデータセットの一般化、現実世界の物理的有効性、防御に対する堅牢性を維持していることが示された。
これらの結果から、現在の赤外線マルチモーダルシステムにおいて、これまで見過ごされていた堅牢性脆弱性が明らかとなった。
関連論文リスト
- Adversarial Patch Generation for Visual-Infrared Dense Prediction Tasks via Joint Position-Color Optimization [14.358458317718174]
視覚的赤外設定における逆パッチを生成するための共同位置色最適化フレームワーク(AP-PCO)を提案する。
我々は、赤外線グレースケール特性に応じてパッチの外観を制約するクロスモーダルカラー適応戦略を導入する。
視覚赤外高密度予測タスクの実験は、提案したAP-PCOが一貫して強力な攻撃性能を発揮することを示す。
論文 参考訳(メタデータ) (2026-02-27T19:26:17Z) - SPIRIT: Adapting Vision Foundation Models for Unified Single- and Multi-Frame Infrared Small Target Detection [18.86422994684341]
赤外線小目標検出(IRSTD)は監視と早期警戒に不可欠であり、単一フレーム分析とビデオモード追跡の両方に展開する。
本稿では,軽量な物理インフォームドプラグインによってVFMをIRSTDに適応させる,統一的でVFM互換のフレームワークであるSPIRITを提案する。
論文 参考訳(メタデータ) (2026-02-02T09:15:29Z) - SSVP: Synergistic Semantic-Visual Prompting for Industrial Zero-Shot Anomaly Detection [55.54007781679915]
本稿では,多種多様な視覚的エンコーディングを効率よく融合させ,モデルの微粒化知覚を高めるSynergistic Semantic-Visual Prompting (SSVP)を提案する。
SSVPは、MVTec-AD上で93.0%のImage-AUROCと92.2%のPixel-AUROCで最先端のパフォーマンスを達成し、既存のゼロショットアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-14T04:42:19Z) - OpenRT: An Open-Source Red Teaming Framework for Multimodal LLMs [36.57820295876294]
MLLMの安全性評価のための統一的,モジュール型,高スループットのRed-teamingフレームワークであるOpenRTを紹介した。
OpenRTのコアとなるのは,5次元にわたるモジュール分離を可能にする対角カーネルを導入することで,自動化された再チームのパラダイムシフトだ。
このフレームワークは、ホワイトボックス勾配、マルチモーダル摂動、高度なマルチエージェント進化戦略など、37の多様な攻撃手法を統合している。
論文 参考訳(メタデータ) (2026-01-04T16:41:33Z) - When Robots Obey the Patch: Universal Transferable Patch Attacks on Vision-Language-Action Models [81.7618160628979]
VLA(Vision-Language-Action)モデルは敵の攻撃に弱いが、普遍的かつ移動可能な攻撃は未発見のままである。
UPA-RFAS(Universal Patch Attack via Robust Feature, Attention, and Semantics)は、単一の物理的パッチを共有機能空間で学習する統合フレームワークである。
多様なVLAモデル、操作スイート、物理実行の実験は、UPA-RFASがモデル、タスク、視点を一貫して移行していることを示している。
論文 参考訳(メタデータ) (2025-11-26T09:16:32Z) - Manifold-aware Representation Learning for Degradation-agnostic Image Restoration [135.90908995927194]
画像復元(IR)は、ノイズ、ぼかし、迷路、雨、低照度といった様々な汚職に影響を受ける劣化した入力から高品質な画像を復元することを目的としている。
我々は、入力特徴空間を3つのセマンティックに整列した並列分岐に明示的に分解する1つのIRにおいて、すべてに統一されたフレームワークであるMIRAGEを提案する。
このモジュラ分解は、多種多様な分解の一般化と効率を大幅に改善する。
論文 参考訳(メタデータ) (2025-05-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。