論文の概要: V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs
- arxiv url: http://arxiv.org/abs/2511.20223v1
- Date: Tue, 25 Nov 2025 11:51:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.436243
- Title: V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs
- Title(参考訳): V-Attack:LVLM上での制御可能な敵攻撃に対する不整合値特徴のターゲティング
- Authors: Sen Nie, Jie Zhang, Jianxin Yan, Shiguang Shan, Xilin Chen,
- Abstract要約: 本稿では,局所的セマンティックアタックの新しい手法であるV-Attackを提案する。
V-Attackは、最先端の手法よりも平均して36%の攻撃成功率を改善する。
- 参考スコア(独自算出の注目度): 66.81402538540458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial attacks have evolved from simply disrupting predictions on conventional task-specific models to the more complex goal of manipulating image semantics on Large Vision-Language Models (LVLMs). However, existing methods struggle with controllability and fail to precisely manipulate the semantics of specific concepts in the image. We attribute this limitation to semantic entanglement in the patch-token representations on which adversarial attacks typically operate: global context aggregated by self-attention in the vision encoder dominates individual patch features, making them unreliable handles for precise local semantic manipulation. Our systematic investigation reveals a key insight: value features (V) computed within the transformer attention block serve as much more precise handles for manipulation. We show that V suppresses global-context channels, allowing it to retain high-entropy, disentangled local semantic information. Building on this discovery, we propose V-Attack, a novel method designed for precise local semantic attacks. V-Attack targets the value features and introduces two core components: (1) a Self-Value Enhancement module to refine V's intrinsic semantic richness, and (2) a Text-Guided Value Manipulation module that leverages text prompts to locate source concept and optimize it toward a target concept. By bypassing the entangled patch features, V-Attack achieves highly effective semantic control. Extensive experiments across diverse LVLMs, including LLaVA, InternVL, DeepseekVL and GPT-4o, show that V-Attack improves the attack success rate by an average of 36% over state-of-the-art methods, exposing critical vulnerabilities in modern visual-language understanding. Our code and data are available https://github.com/Summu77/V-Attack.
- Abstract(参考訳): 敵攻撃は、従来のタスク固有モデルの予測を単に破壊することから、LVLM(Large Vision-Language Models)のイメージセマンティクスを操作するというより複雑な目標へと発展した。
しかし、既存の手法は制御性に苦慮し、画像内の特定の概念の意味を正確に操作することができない。
視覚エンコーダにおける自己注意によって集約されたグローバルコンテキストは、個々のパッチの特徴を支配し、正確な局所的なセマンティック操作のための信頼できないハンドリングとなる。
我々の体系的な調査は重要な洞察を明らかにしている: トランスフォーマーアテンションブロック内で計算された値特徴(V)は、操作のためのより正確なハンドリングを提供する。
V はグローバルなコンテキストチャネルを抑圧し,高エントロピー,非絡み合ったローカルなセマンティック情報を保持できることを示す。
この発見に基づいて,局所的セマンティックアタックの精度向上を目的とした新しい手法であるV-Attackを提案する。
V-Attackは、Vの本質的な意味の豊かさを洗練するためのSelf-Value Enhancementモジュールと、テキストプロンプトを活用するText-Guided Value Manipulationモジュールの2つのコアコンポーネントを導入し、ソース概念を特定し、ターゲット概念に向けて最適化する。
絡み合ったパッチ機能をバイパスすることで、V-Attackは極めて効果的なセマンティックコントロールを実現する。
LLaVA、InternVL、DeepseekVL、GPT-4oを含む様々なLVLMにわたる大規模な実験は、V-Attackが最先端の手法よりも平均36%の攻撃成功率を改善し、現代の視覚言語理解において重大な脆弱性を露呈していることを示している。
私たちのコードとデータはhttps://github.com/Summu77/V-Attack.comで入手可能です。
関連論文リスト
- Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight [49.882469110319086]
本稿では,DVF(Disentangled Visual Foresight)を特徴とする新しいフレームワークであるMantisを紹介する。
Mantisは、メタクエリと拡散トランスフォーマー(DiT)ヘッドを組み合わせて、バックボーンから視覚的予測を分離する。
マンティスは微調整後のLIBEROベンチマークで96.7%の成功率を達成した。
論文 参考訳(メタデータ) (2025-11-20T09:30:23Z) - TokenSwap: Backdoor Attack on the Compositional Understanding of Large Vision-Language Models [57.32952956674526]
大規模視覚言語モデル(LVLM)に対するより回避的でステルス的なバックドア攻撃であるTokenSwapを紹介する。
固定されたターゲットコンテンツを強制するのではなく、TokenSwapはテキスト内のオブジェクト関係の理解を微妙に妨害する。
TokenSwapは、優れた回避性とステルス性を維持しながら、高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-09-29T10:19:22Z) - V-SEAM: Visual Semantic Editing and Attention Modulating for Causal Interpretability of Vision-Language Models [10.052877942432783]
本稿では,視覚言語モデルの因果的解釈に視覚意味編集と注意調整を組み合わせた新しいフレームワークであるV-SEAMを紹介する。
V-SEAMは3つの意味レベルにわたる予測に肯定的あるいは否定的な貢献で注目の頭を認識する。
3種類のVQAベンチマークでLLaVAとInstructBLIPの性能向上を示した。
論文 参考訳(メタデータ) (2025-09-18T10:58:34Z) - Enhancing Targeted Adversarial Attacks on Large Vision-Language Models via Intermediate Projector [24.390527651215944]
ブラックボックスの敵攻撃は特に大型ビジョンランゲージモデル(VLM)に深刻な脅威をもたらす
本稿では,プロジェクタを利用した新たなブラックボックスターゲットアタックフレームワークを提案する。
具体的には、グローバルな画像埋め込みをきめ細かなクエリ出力に変換する、広く採用されているクエリ変換器(Q-Former)を利用する。
論文 参考訳(メタデータ) (2025-08-19T11:23:09Z) - Backdoor Attack on Vision Language Models with Stealthy Semantic Manipulation [32.24294112337828]
BadSemは、トレーニング中に画像とテキストのペアを意図的に間違えることでバックドアを注入するデータ中毒攻撃だ。
実験の結果,BadSemは平均的ASRの98%以上を達成し,アウト・オブ・ディストリビューション・データセットに最適化し,有害なモダリティをまたいで転送可能であることがわかった。
我々の発見は、より安全なデプロイメントのためにビジョン言語モデルにおけるセマンティックな脆弱性に対処する緊急の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-06-08T16:40:40Z) - VEAttack: Downstream-agnostic Vision Encoder Attack against Large Vision Language Models [33.120141513366136]
LVLM(Large Vision-Language Models)は、マルチモーダル理解と生成において顕著な能力を示す。
既存の効果的な攻撃は常にタスク固有のホワイトボックス設定に集中する。
我々は,LVLMのビジョンエンコーダのみをターゲットとした,シンプルで効果的なビジョンアタック(VEAttack)を提案する。
論文 参考訳(メタデータ) (2025-05-23T03:46:04Z) - Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。
私たちのゴールは、ローカルとグローバルの両方の画像セマンティクスを効果的にキャプチャするビジョンバックボーンでこれを解決することです。
局所性アライメントとMaskEmbedと呼ばれる新しい微調整手順を提案する。
論文 参考訳(メタデータ) (2024-10-14T21:01:01Z) - MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。
私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。
我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-07-31T09:23:57Z) - Safeguarding Vision-Language Models Against Patched Visual Prompt Injectors [31.383591942592467]
視覚言語モデル(VLM)は、視覚とテキストのデータを組み合わせて理解と相互作用を強化する革新的な方法を提供する。
パッチベースの敵攻撃は、物理的な視覚応用において最も現実的な脅威モデルと考えられている。
本研究では,スムージング技術に根ざした防御機構であるSmoothVLMを導入し,VLMをパッチ付き視覚プロンプトインジェクタの脅威から保護する。
論文 参考訳(メタデータ) (2024-05-17T04:19:19Z) - Manipulating Feature Visualizations with Gradient Slingshots [53.94925202421929]
特徴可視化(FV)は、ディープニューラルネットワーク(DNN)で学んだ概念を解釈するための広く使われている手法である。
本稿では,モデルアーキテクチャを変更したり,性能を著しく劣化させたりすることなくFVの操作を可能にする新しい手法,Gradient Slingshotsを提案する。
論文 参考訳(メタデータ) (2024-01-11T18:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。