論文の概要: When Surfaces Lie: Exploiting Wrinkle-Induced Attention Shift to Attack Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.27759v2
- Date: Thu, 02 Apr 2026 07:53:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:09.164665
- Title: When Surfaces Lie: Exploiting Wrinkle-Induced Attention Shift to Attack Vision-Language Models
- Title(参考訳): 表面が横になっているとき: クリンクルが引き起こした意図が視覚・言語モデルへの攻撃へ移行する
- Authors: Chengyin Hu, Xuemeng Sun, Jiajun Han, Qike Zhang, Xiang Chen, Xin Wang, Yiwei Wei, Jiahua Long,
- Abstract要約: 本研究では, 三次元織物シワの力学から着想を得たパラメトリック構造摂動法を提案する。
本手法は, マルチスケールのひび割れ場を構築し, 変位場歪みと表面不連続な外観変化を統合することで, 非剛性摂動を生成する。
- 参考スコア(独自算出の注目度): 10.673331719964184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual-Language Models (VLMs) have demonstrated exceptional cross-modal understanding across various tasks, including zero-shot classification, image captioning, and visual question answering. However, their robustness to physically plausible non-rigid deformations-such as wrinkles on flexible surfaces-remains poorly understood. In this work, we propose a parametric structural perturbation method inspired by the mechanics of three-dimensional fabric wrinkles. Specifically, our method generates photorealistic non-rigid perturbations by constructing multi-scale wrinkle fields and integrating displacement field distortion with surface-consistent appearance variations. To achieve an optimal balance between visual naturalness and adversarial effectiveness, we design a hierarchical fitness function in a low-dimensional parameter space and employ an optimization-based search strategy. We evaluate our approach using a two-stage framework: perturbations are first optimized on a zero-shot classification proxy task and subsequently assessed for transferability on generative tasks. Experimental results demonstrate that our method significantly degrades the performance of various state-of-the-art VLMs, consistently outperforming baselines in both image captioning and visual question-answering tasks.
- Abstract(参考訳): VLM(Visual-Language Models)は、ゼロショット分類、画像キャプション、視覚的質問応答など、様々なタスクにおいて、例外的なクロスモーダル理解を実証している。
しかし, フレキシブル表面のしわなど, 物理的に安定な非剛性変形に対する頑健さはよく理解されていない。
そこで本研究では, 三次元織物シワの力学から着想を得たパラメトリック構造摂動法を提案する。
具体的には, マルチスケールのひび割れ場を構築し, 表面の不規則な外観変化と変位場歪みを統合することにより, フォトリアリスティックな非剛性摂動を生成する。
低次元パラメータ空間における階層的適合関数を設計し、最適化に基づく探索戦略を用いる。
摂動は、まずゼロショット分類プロキシタスクに最適化され、その後、生成タスクの転送性を評価する。
実験の結果,提案手法は様々な最先端VLMの性能を著しく低下させ,画像キャプションと視覚質問応答の両タスクのベースラインを一貫して上回っていることがわかった。
関連論文リスト
- Skeletonization-Based Adversarial Perturbations on Large Vision Language Model's Mathematical Text Recognition [2.729898906885749]
本研究は, 新たな敵攻撃手法を導入することにより, 基礎モデルの視覚的能力と限界について検討する。
本手法は,テキストを含む画像,特に数式画像を対象としている。
論文 参考訳(メタデータ) (2026-01-08T09:15:27Z) - Rectifying Latent Space for Generative Single-Image Reflection Removal [16.341477336909765]
単一画像の除去は、既存の手法が崩壊した領域の構成を推論するのに苦労する、非常に不適切な問題である。
この研究は、編集目的の潜在拡散モデルを再設計し、高度に曖昧で層状な画像入力を効果的に知覚し、処理する。
論文 参考訳(メタデータ) (2025-12-06T09:16:14Z) - Edit2Perceive: Image Editing Diffusion Models Are Strong Dense Perceivers [55.15722080205737]
Edit2Perceiveは、深度、正規度、マッティングの編集モデルを適応させる統合拡散フレームワークである。
私たちの単一ステップの決定論的推論は、比較的小さなデータセットでトレーニングしながら、より高速なランタイムをもたらす。
論文 参考訳(メタデータ) (2025-11-24T01:13:51Z) - DCEvo: Discriminative Cross-Dimensional Evolutionary Learning for Infrared and Visible Image Fusion [58.36400052566673]
赤外線および可視画像融合は、異なるスペクトルバンドからの情報を統合して画質を向上させる。
既存のアプローチでは、画像融合とそれに続くハイレベルなタスクを別プロセスとして扱う。
本稿では、視覚的品質と知覚精度を同時に向上させるDCEvoと呼ばれる識別的クロス次元進化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-22T07:01:58Z) - Visual Prompt Tuning in Null Space for Continual Learning [51.96411454304625]
既存のプロンプトチューニング手法は、継続学習(CL)における印象的な性能を示す。
本稿では,従来のタスクの特徴に代表される部分空間に直交する方向のプロンプトを調整し,各タスクを学習することを目的とする。
実際には、即時勾配予測を実装するために、実効的なヌル空間に基づく近似解が提案されている。
論文 参考訳(メタデータ) (2024-06-09T05:57:40Z) - What Matters When Repurposing Diffusion Models for General Dense Perception Tasks? [49.84679952948808]
最近の研究は、高密度知覚タスクのためのT2I拡散モデルを簡単に調整することで有望な結果を示す。
拡散前処理における伝達効率と性能に影響を及ぼす重要な要因を徹底的に検討する。
我々の研究は、濃密な視覚認知タスクに特化した効果的な決定論的ワンステップ微調整パラダイムであるGenPerceptの開発において頂点に達した。
論文 参考訳(メタデータ) (2024-03-10T04:23:24Z) - Layered Rendering Diffusion Model for Controllable Zero-Shot Image Synthesis [15.76266032768078]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
まず、摂動分布の基本的な空間的キューとして視覚誘導を導入する。
本稿では,複数のレイヤからなる画像レンダリングプロセスを構築する汎用フレームワークであるLayered Rendering Diffusion (LRDiff)を提案する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - Learning visual-based deformable object rearrangement with local graph
neural networks [4.333220038316982]
本稿では,変形可能なオブジェクト状態とキーポイントの集合とその相互作用を効率的にモデル化できる新しい表現戦略を提案する。
また、変形可能な再配置ダイナミクスを共同でモデル化し、最適操作動作を推定するための光局所GNN学習を提案する。
本手法は, 各種変形可能なアレンジメントタスク(平均96.3%)において, シミュレーション実験における最先端手法よりもはるかに高い成功率を達成する。
論文 参考訳(メタデータ) (2023-10-16T11:42:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。