論文の概要: TokenSwap: Backdoor Attack on the Compositional Understanding of Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2509.24566v1
- Date: Mon, 29 Sep 2025 10:19:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.919242
- Title: TokenSwap: Backdoor Attack on the Compositional Understanding of Large Vision-Language Models
- Title(参考訳): TokenSwap:大規模視覚言語モデルの構成的理解に対するバックドアアタック
- Authors: Zhifang Zhang, Qiqi Tao, Jiaqi Lv, Na Zhao, Lei Feng, Joey Tianyi Zhou,
- Abstract要約: 大規模視覚言語モデル(LVLM)に対するより回避的でステルス的なバックドア攻撃であるTokenSwapを紹介する。
固定されたターゲットコンテンツを強制するのではなく、TokenSwapはテキスト内のオブジェクト関係の理解を微妙に妨害する。
TokenSwapは、優れた回避性とステルス性を維持しながら、高い攻撃成功率を達成する。
- 参考スコア(独自算出の注目度): 57.32952956674526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-language models (LVLMs) have achieved impressive performance across a wide range of vision-language tasks, while they remain vulnerable to backdoor attacks. Existing backdoor attacks on LVLMs aim to force the victim model to generate a predefined target pattern, which is either inserted into or replaces the original content. We find that these fixed-pattern attacks are relatively easy to detect, because the attacked LVLM tends to memorize such frequent patterns in the training dataset, thereby exhibiting overconfidence on these targets given poisoned inputs. To address these limitations, we introduce TokenSwap, a more evasive and stealthy backdoor attack that focuses on the compositional understanding capabilities of LVLMs. Instead of enforcing a fixed targeted content, TokenSwap subtly disrupts the understanding of object relationships in text. Specifically, it causes the backdoored model to generate outputs that mention the correct objects in the image but misrepresent their relationships (i.e., bags-of-words behavior). During training, TokenSwap injects a visual trigger into selected samples and simultaneously swaps the grammatical roles of key tokens in the corresponding textual answers. However, the poisoned samples exhibit only subtle differences from the original ones, making it challenging for the model to learn the backdoor behavior. To address this, TokenSwap employs an adaptive token-weighted loss that explicitly emphasizes the learning of swapped tokens, such that the visual triggers and bags-of-words behavior are associated. Extensive experiments demonstrate that TokenSwap achieves high attack success rates while maintaining superior evasiveness and stealthiness across multiple benchmarks and various LVLM architectures.
- Abstract(参考訳): 大規模な視覚言語モデル(LVLM)は、バックドアアタックに対して脆弱でありながら、幅広い視覚言語タスクにおいて印象的なパフォーマンスを実現している。
既存のLVLMに対するバックドア攻撃は、被害者モデルを強制的に、元のコンテンツに挿入または置換される事前に定義されたターゲットパターンを生成することを目的としている。
攻撃されたLVLMはトレーニングデータセットにおけるそのような頻繁なパターンを記憶する傾向があり,これらのターゲットに対して有毒な入力が過剰に発生するため,これらの固定パターン攻撃は比較的容易に検出できることがわかった。
これらの制限に対処するために,LVLMの合成理解機能に着目した,より回避的でステルスなバックドア攻撃であるTokenSwapを紹介した。
固定されたターゲットコンテンツを強制するのではなく、TokenSwapはテキスト内のオブジェクト関係の理解を微妙に妨害する。
具体的には、バックドアモデルが画像中の正しいオブジェクトに言及する出力を生成するが、それらの関係(すなわち、単語のバッグの振る舞い)を誤って表現する。
トレーニング中、TokenSwapは選択したサンプルに視覚的トリガーを注入し、対応するテキスト回答におけるキートークンの文法的役割を同時に置き換える。
しかし、毒を盛ったサンプルはオリジナルのものと微妙な違いしか示さないため、モデルがバックドアの振る舞いを学習することは困難である。
これを解決するために、TokenSwapは適応的なトークン重み付き損失を採用し、スワップされたトークンの学習を強調している。
大規模な実験により、TokenSwapは、複数のベンチマークと様々なLVLMアーキテクチャで優れた回避性とステルス性を保ちながら、高い攻撃成功率を達成することが示された。
関連論文リスト
- SRD: Reinforcement-Learned Semantic Perturbation for Backdoor Defense in VLMs [57.880467106470775]
攻撃者は、トレーニングデータに知覚不能な摂動を注入することができ、モデルが悪意のある攻撃的制御されたキャプションを生成する。
本稿では,引き金の事前知識を伴わずにバックドア動作を緩和する強化学習フレームワークであるセマンティック・リワード・ディフェンス(SRD)を提案する。
SRDはDeep Q-Networkを使用して、機密画像領域に個別の摂動を適用するためのポリシーを学習し、悪意ある経路の活性化を妨害することを目的としている。
論文 参考訳(メタデータ) (2025-06-05T08:22:24Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - VEAttack: Downstream-agnostic Vision Encoder Attack against Large Vision Language Models [33.120141513366136]
LVLM(Large Vision-Language Models)は、マルチモーダル理解と生成において顕著な能力を示す。
既存の効果的な攻撃は常にタスク固有のホワイトボックス設定に集中する。
我々は,LVLMのビジョンエンコーダのみをターゲットとした,シンプルで効果的なビジョンアタック(VEAttack)を提案する。
論文 参考訳(メタデータ) (2025-05-23T03:46:04Z) - Break the Visual Perception: Adversarial Attacks Targeting Encoded Visual Tokens of Large Vision-Language Models [15.029014337718849]
大きな視覚言語モデル(LVLM)は、視覚情報を大きな言語モデルに統合し、目覚ましい多モーダルな会話能力を示す。
一般に、LVLMは視覚エンコーダに頼って画像を視覚トークンに変換するが、これは言語モデルが画像の内容を効果的に知覚するのに不可欠である。
本稿では,VT-Attackと呼ばれる非標的攻撃手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T09:06:56Z) - Revisiting Backdoor Attacks against Large Vision-Language Models from Domain Shift [104.76588209308666]
本稿では,LVLMの学習訓練におけるバックドア攻撃について検討する。
我々は,攻撃の堅牢性を評価するために,新たな評価次元,バックドア領域の一般化を導入する。
本稿では,ドメイン非依存的トリガを臨界領域に注入するマルチモーダルアトリビューションバックドアアタック(MABA)を提案する。
論文 参考訳(メタデータ) (2024-06-27T02:31:03Z) - InstructTA: Instruction-Tuned Targeted Attack for Large Vision-Language Models [13.21813503235793]
大規模視覚言語モデル(LVLM)は、画像理解と応答生成において、その驚くべき能力を示した。
本稿では,被害者LVLMの視覚エンコーダのみを敵が知ることのできる,新規で実用的な攻撃シナリオを定式化する。
本研究では,LVLMに対して高い転送性を有する目標対向攻撃を実現するために,命令調整型ターゲットアタック(dubed textscInstructTA)を提案する。
論文 参考訳(メタデータ) (2023-12-04T13:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。