論文の概要: Robust Anti-Backdoor Instruction Tuning in LVLMs
- arxiv url: http://arxiv.org/abs/2506.05401v1
- Date: Wed, 04 Jun 2025 01:23:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.127132
- Title: Robust Anti-Backdoor Instruction Tuning in LVLMs
- Title(参考訳): LVLMにおけるロバストなアンチバックドアインストラクションチューニング
- Authors: Yuan Xun, Siyuan Liang, Xiaojun Jia, Xinwei Liu, Xiaochun Cao,
- Abstract要約: 大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
- 参考スコア(独自算出の注目度): 53.766434746801366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large visual language models (LVLMs) have demonstrated excellent instruction-following capabilities, yet remain vulnerable to stealthy backdoor attacks when finetuned using contaminated data. Existing backdoor defense techniques are usually developed for single-modal visual or language models under fully parameter-adjustable settings or rely on supervisory knowledge during training. However, in real-world scenarios, defenders cannot modify frozen visual encoders or core LLM parameters, nor possess prior knowledge of unknown trigger patterns or target responses. Motivated by the empirical finding that LVLMs readily overfit to fixed, unknown triggers, which can embed malicious associations during adapter-level tuning, we aim to design a defense that operates without access to core weights or attack priors. To this end, we introduce a lightweight, certified-agnostic defense framework, Robust Instruction Tuning, that finetunes only adapter modules and text embedding layers under instruction tuning. Our method integrates two complementary regularizations: (1) Input Diversity Regularization, which perturbs trigger components across training samples to disrupt consistent spurious cues; and (2) Anomalous Activation Regularization, which dynamically sparses adapter weights exhibiting abnormally sharp activations linked to backdoor patterns. These mechanisms jointly guide the model toward learning semantically grounded representations rather than memorizing superficial trigger-response mappings. Extensive experiments against seven attacks on Flickr30k and MSCOCO demonstrate that ours reduces their attack success rate to nearly zero, with an increase in training cost of less than 15%.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、優れた命令追従能力を示したが、汚染されたデータを用いて微調整された場合、ステルスなバックドア攻撃に弱いままである。
既存のバックドア防御技術は通常、完全なパラメータ調整可能な設定の下で単一モードの視覚モデルや言語モデルのために開発される。
しかし、現実のシナリオでは、ディフェンダーは凍結したビジュアルエンコーダやコアLLMパラメータを変更したり、未知のトリガーパターンやターゲット応答の事前知識を持っていたりすることができない。
本研究の目的は,LVLMが固定された未知のトリガに容易に適合し,アダプタレベルのチューニング中に悪意あるアソシエーションを埋め込めることにある。
この目的のために我々は,命令チューニング中のアダプタモジュールとテキスト埋め込み層のみを微調整する,軽量で認証に依存しない防御フレームワークRobust Instruction Tuningを導入する。
提案手法は,(1) 入力多様性規則化,(2) バックドアパターンに関連付けられた異常に鋭いアクティベーションを示すアダプタ重みを動的にスペーサーする異常活性化規則化,の2つの相補正規化を統合した。
これらのメカニズムは、表面的なトリガー応答マッピングを記憶するのではなく、意味的基底表現を学習するためのモデルを共同で導く。
Flickr30kとMSCOCOに対する7つの攻撃に対する大規模な実験は、我々の研究が攻撃成功率をほぼゼロに減らし、トレーニングコストが15%未満であることを示している。
関連論文リスト
- Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。
近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。
脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - CTRAP: Embedding Collapse Trap to Safeguard Large Language Models from Harmful Fine-Tuning [12.293101110323722]
ファインチューニング・アズ・ア・サービス(英語版)は、有害なファインチューニング攻撃に対してモデルを公開する。
我々は、選択的な除去ではなく、モデル崩壊を誘発するパラダイムシフトを提案する。
この崩壊は、攻撃者が悪用する非常に一般的な機能を直接中和する。
論文 参考訳(メタデータ) (2025-05-22T11:47:08Z) - Neural Antidote: Class-Wise Prompt Tuning for Purifying Backdoors in Pre-trained Vision-Language Models [42.81731204702258]
CBPT(Class-wise Backdoor Prompt Tuning)は、テキストプロンプトによって間接的に汚染された視覚言語モデル(VLM)を浄化する効率的な方法である。
CBPTは、7つの主要なバックドア攻撃に対して平均的クリーン精度(CA)58.86%、アタック成功率(ASR)0.39%のモデルユーティリティを維持しながら、バックドアの脅威を著しく軽減する。
論文 参考訳(メタデータ) (2025-02-26T16:25:15Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Trojan Activation Attack: Red-Teaming Large Language Models using Activation Steering for Safety-Alignment [31.24530091590395]
本研究では,大規模言語モデルの活性化層にトロイの木馬ステアリングベクトルを注入する,Trojan Activation Attack (TA2) と呼ばれる攻撃シナリオについて検討する。
実験の結果,TA2は高効率であり,攻撃効率のオーバーヘッドがほとんどあるいは全くないことがわかった。
論文 参考訳(メタデータ) (2023-11-15T23:07:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。