論文の概要: XSPA: Crafting Imperceptible X-Shaped Sparse Adversarial Perturbations for Transferable Attacks on VLMs
- arxiv url: http://arxiv.org/abs/2603.28568v1
- Date: Mon, 30 Mar 2026 15:24:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.475831
- Title: XSPA: Crafting Imperceptible X-Shaped Sparse Adversarial Perturbations for Transferable Attacks on VLMs
- Title(参考訳): XSPA:VLMのトランスファー可能な攻撃に対するX字型スパース対向摂動の製作
- Authors: Chengyin Hu, Jiaju Han, Xuemeng Sun, Qike Zhang, Yiwei Wei, Ang Li, Chunlei Meng, Xiang Chen, Jiahuan Long,
- Abstract要約: 視覚言語モデル(VLM)は、タスクを実行するために共有された視覚的テキスト表現空間に依存している。
小さな視覚摂動は共有埋め込み空間を通して伝播し、相関する意味障害を引き起こす。
X字型スパース・ピクチャー・アタック (XSPA) は、2本の対角線に摂動を制限する非受容構造攻撃である。
- 参考スコア(独自算出の注目度): 12.841884476022889
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) rely on a shared visual-textual representation space to perform tasks such as zero-shot classification, image captioning, and visual question answering (VQA). While this shared space enables strong cross-task generalization, it may also introduce a common vulnerability: small visual perturbations can propagate through the shared embedding space and cause correlated semantic failures across tasks. This risk is particularly important in interactive and decision-support settings, yet it remains unclear whether VLMs are robust to highly constrained, sparse, and geometrically fixed perturbations. To address this question, we propose X-shaped Sparse Pixel Attack (XSPA), an imperceptible structured attack that restricts perturbations to two intersecting diagonal lines. Compared with dense perturbations or flexible localized patches, XSPA operates under a much stricter attack budget and thus provides a more stringent test of VLM robustness. Within this sparse support, XSPA jointly optimizes a classification objective, cross-task semantic guidance, and regularization on perturbation magnitude and along-line smoothness, inducing transferable misclassification as well as semantic drift in captioning and VQA while preserving visual subtlety. Under the default setting, XSPA modifies only about 1.76% of image pixels. Experiments on the COCO dataset show that XSPA consistently degrades performance across all three tasks. Zero-shot accuracy drops by 52.33 points on OpenAI CLIP ViT-L/14 and 67.00 points on OpenCLIP ViT-B/16, while GPT-4-evaluated caption consistency decreases by up to 58.60 points and VQA correctness by up to 44.38 points. These results suggest that even highly sparse and visually subtle perturbations with fixed geometric priors can substantially disrupt cross-task semantics in VLMs, revealing a notable robustness gap in current multimodal systems.
- Abstract(参考訳): 視覚言語モデル(VLM)は、ゼロショット分類、画像キャプション、視覚質問応答(VQA)などのタスクを実行するために、共有された視覚テキスト表現空間に依存している。
この共有空間は、強力なクロスタスクの一般化を可能にするが、共通の脆弱性も導入する: 小さな視覚摂動は、共有埋め込み空間を通して伝播し、タスク間で相関的な意味的障害を引き起こす。
このリスクは、特に対話的かつ意思決定支援の設定において重要であるが、VLMが高度に制約された、スパースで、幾何学的に固定された摂動に対して堅牢であるかどうかは不明である。
この問題に対処するために,2本の対角線に摂動を制限する非受容的構造攻撃であるX字型スパース・ピクチャー・アタック(XSPA)を提案する。
密度の高い摂動やフレキシブルな局所パッチと比較すると、XSPAはより厳格な攻撃予算の下で動作し、VLMの堅牢性のより厳密なテストを提供する。
このスパースサポートの中で、XSPAは、視覚的微妙さを保ちながら、キャプションやVQAのセマンティックドリフトと同様に、分類目的、クロスタスクのセマンティックガイダンス、摂動の大きさと直線スムーズ性の規則化を共同で最適化する。
デフォルト設定では、XSPAは画像ピクセルの1.76%しか修正していない。
COCOデータセットの実験では、XSPAは3つのタスクすべてで一貫してパフォーマンスを低下させる。
OpenAI CLIP ViT-L/14では52.33ポイント、OpenCLIP ViT-B/16では67.00ポイント、GPT-4で評価されたキャプションの一貫性は58.60ポイント、VQAの精度は44.38ポイントまで低下する。
これらの結果から,VLMにおけるクロスタスクのセマンティクスを著しく破壊し,現在のマルチモーダルシステムにおいて顕著なロバスト性差があることが示唆された。
関連論文リスト
- STVG-R1: Incentivizing Instance-Level Reasoning and Grounding in Videos via Reinforcement Learning [65.36458157092207]
視覚言語モデル(VLM)では、テキスト記述と視覚座標のミスアライメントはしばしば幻覚を引き起こす。
本稿では,座標の調整が難しい問題を回避するために,新しい視覚的プロンプトパラダイムを提案する。
本稿では,STVGの最初の強化学習フレームワークであるSTVG-R1を紹介する。
論文 参考訳(メタデータ) (2026-02-12T08:53:32Z) - Rethinking Multi-Condition DiTs: Eliminating Redundant Attention via Position-Alignment and Keyword-Scoping [61.459927600301654]
マルチコンディション制御は従来のコンカデント・アンド・アットエンドの戦略によってボトルネックとなる。
分析の結果,これらの相互作用の多くは空間的にも意味的にも冗長であることがわかった。
本稿では,これらの冗長性を解消するための高効率なフレームワークであるPKAを提案する。
論文 参考訳(メタデータ) (2026-02-06T16:39:10Z) - SEPS: Semantic-enhanced Patch Slimming Framework for fine-grained cross-modal alignment [8.657941729790599]
本稿では,パッチの冗長性と曖昧性に体系的に対処するセマンティック・エンハンスト・パッチ・スライミング(SEPS)フレームワークを紹介する。
提案手法では,密文と疎文の両方から統合されたセマンティクスを統合するための2段階の機構を用いて,視覚的パッチを識別する。
Flickr30KとMS-COCOデータセットの実験は、SEPSが優れたパフォーマンスを達成することを検証する。
論文 参考訳(メタデータ) (2025-11-03T09:41:32Z) - Enhancing CLIP Robustness via Cross-Modality Alignment [54.01929554563447]
視覚言語モデルのための最適なトランスポートベースフレームワークであるクロスモダリティアライメントを提案する。
COLAは、グローバルな画像テキストアライメントと特徴空間における局所的な構造的一貫性を復元する。
COLAはトレーニングフリーで、既存の微調整モデルと互換性がある。
論文 参考訳(メタデータ) (2025-10-28T03:47:44Z) - A Versatile Framework for Designing Group-Sparse Adversarial Attacks [8.931986088502091]
既存の敵攻撃は、しばしば摂動空間を無視し、構造変化をモデル化する能力を制限する。
我々は, 素子, 画素, グループ単位で, スパースな対向摂動を生成する, 微分可能な最適化フレームワークATOSを提案する。
CIFAR-10 と ImageNet では、ATOS は攻撃成功率100%を達成し、従来の方法よりもはるかにスペーサーで構造的に整合的な摂動を発生させる。
論文 参考訳(メタデータ) (2025-10-18T20:42:45Z) - Semantic Concentration for Self-Supervised Dense Representations Learning [103.10708947415092]
イメージレベルの自己教師型学習(SSL)は大きな進歩を遂げているが、パッチの密度の高い表現を学ぶことは依然として難しい。
この研究は、画像レベルのSSLが暗黙のセマンティックな集中を伴って過分散を避けることを明らかにしている。
論文 参考訳(メタデータ) (2025-09-11T13:12:10Z) - To Make Yourself Invisible with Adversarial Semantic Contours [47.755808439588094]
逆セマンティック・コンター(英: Adversarial Semantic Contour、ASC)は、物体の輪郭の前に騙されたスパース・アタックのベイズ的定式化の見積もりである。
ASCは、異なるアーキテクチャを持つ9つの近代検出器の予測を損なう可能性があることを示す。
我々は、様々なアーキテクチャを持つ物体検出器の共通弱点である輪郭について注意を払って結論付けた。
論文 参考訳(メタデータ) (2023-03-01T07:22:39Z) - Sparse and Imperceptible Adversarial Attack via a Homotopy Algorithm [93.80082636284922]
少数の敵対的攻撃は、数ピクセルを摂動するだけでディープ・ネットワーク(DNN)を騙すことができる。
近年の取り組みは、他の等級のl_infty摂動と組み合わせている。
本稿では,空間的・神経的摂動に対処するホモトピーアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-10T20:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。