論文の概要: A Patch-based Cross-view Regularized Framework for Backdoor Defense in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2604.04488v1
- Date: Mon, 06 Apr 2026 07:27:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.132207
- Title: A Patch-based Cross-view Regularized Framework for Backdoor Defense in Multimodal Large Language Models
- Title(参考訳): マルチモーダル大規模言語モデルにおけるバックドアディフェンスのためのパッチベースクロスビュー正規化フレームワーク
- Authors: Tianmeng Fang, Yong Wang, Zetai Kong, Zengzhen Su, Jun Wang, Chengjin Yu, Wei Wang,
- Abstract要約: 本稿では,パッチ拡張とクロスビュー規則性に基づく統一型防衛フレームワークを提案する。
我々の研究は、現実的な低周波中毒と隠蔽トリガーシナリオにおける大規模マルチモーダルモデルの安全かつ制御された展開を可能にする。
- 参考スコア(独自算出の注目度): 10.372037861522783
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models have become an important infrastructure for unified processing of visual and linguistic tasks. However, such models are highly susceptible to backdoor implantation during supervised fine-tuning and will steadily output the attacker's predefined harmful responses once a specific trigger pattern is activated. The core challenge of backdoor defense lies in suppressing attack success under low poisoning ratios while preserving the model's normal generation ability. These two objectives are inherently conflicting. Strong suppression often degrades benign performance, whereas weak regularization fails to mitigate backdoor behaviors. To this end, we propose a unified defense framework based on patch augmentation and cross-view regularity, which simultaneously constrains the model's anomalous behaviors in response to triggered patterns from both the feature representation and output distribution levels. Specifically, patch-level data augmentation is combined with cross-view output difference regularization to exploit the fact that backdoor responses are abnormally invariant to non-semantic perturbations and to proactively pull apart the output distributions of the original and perturbed views, thereby significantly suppressing the success rate of backdoor triggering. At the same time, we avoid over-suppression of the model during defense by imposing output entropy constraints, ensuring the quality of normal command generation. Experimental results across three models, two tasks, and six attacks show that our proposed defense method effectively reduces the attack success rate while maintaining a high level of normal text generation capability. Our work enables the secure, controlled deployment of large-scale multimodal models in realistic low-frequency poisoning and covert triggering scenarios.
- Abstract(参考訳): マルチモーダルな大規模言語モデルは、視覚的タスクと言語的タスクの統一処理のための重要な基盤となっている。
しかし、そのようなモデルは、監督された微調整の間、バックドアの注入に非常に敏感であり、特定のトリガーパターンが活性化されると、攻撃者の予め定義された有害な応答を確実に出力する。
バックドア防御の核心となる課題は、モデルの正常な生成能力を保ちながら、低毒度で攻撃の成功を抑えることである。
これら2つの目的は本質的に矛盾している。
強い抑制はしばしば良質な性能を低下させるが、弱い正規化はバックドアの挙動を軽減するのに失敗する。
そこで本研究では,特徴表現と出力分布の双方から引き起こされるパターンに応答して,モデルの異常な動作を同時に抑制する,パッチ拡張とクロスビュー規則性に基づく統一型防御フレームワークを提案する。
具体的には、バックドア応答が非セマンティックな摂動に異常に不変であるという事実を利用して、パッチレベルのデータ拡張とクロスビュー出力差正規化を組み合わせ、元のビューと摂動ビューの出力分布を積極的に分離し、バックドアトリガの成功率を著しく抑制する。
同時に、出力エントロピー制約を課し、通常のコマンド生成の品質を確保することで、防御中のモデルの過剰な抑制を回避する。
3つのモデル,2つのタスク,6つの攻撃に対する実験結果から,提案手法は高レベルのテキスト生成能力を維持しつつ,攻撃成功率を効果的に低減することを示す。
我々の研究は、現実的な低周波中毒と隠蔽トリガーシナリオにおける大規模マルチモーダルモデルの安全かつ制御された展開を可能にする。
関連論文リスト
- When One Modality Rules Them All: Backdoor Modality Collapse in Multimodal Diffusion Models [32.77084507646192]
マルチモーダル拡散モデルにおけるバックドアモダリティ崩壊現象について検討する。
攻撃はしばしばサブセット・モダリティの優位に崩壊し、相互モダリティの相互作用は無視または否定的である。
これらの結果は、攻撃の成功率が高いことが、モダリティのサブセットに根本的な依存を隠蔽していることを示唆している。
論文 参考訳(メタデータ) (2026-03-06T17:42:08Z) - BadRSSD: Backdoor Attacks on Regularized Self-Supervised Diffusion Models [10.286339414754499]
Bad RSSDは自己教師付き拡散モデルの表現層をターゲットにした最初のバックドア攻撃である。
標的画像に対するPCA空間のトリガーで有毒なサンプルのセマンティック表現をハイジャックする。
悪い RSSD は FID と MSE の両方で既存の攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2026-03-01T09:56:26Z) - Self-Purification Mitigates Backdoors in Multimodal Diffusion Language Models [74.1970982768771]
確立されたデータポゾンパイプラインは,MDLMにバックドアを埋め込むことに成功した。
拡散自己浄化(Diffusion Self-Purification)と呼ばれるMDLMのバックドア防御フレームワークについて紹介する。
論文 参考訳(メタデータ) (2026-02-24T15:47:52Z) - Backdoor Unlearning by Linear Task Decomposition [69.91984435094157]
ファンデーションモデルは、敵の摂動と標的のバックドア攻撃に非常に敏感である。
既存のバックドア除去アプローチは、有害な振る舞いをオーバーライドするために、コストのかかる微調整に依存している。
このことは、バックドアがモデルの一般的な能力を損なうことなく取り除けるかどうかという問題を提起する。
論文 参考訳(メタデータ) (2025-10-16T16:18:07Z) - Backdoor Collapse: Eliminating Unknown Threats via Known Backdoor Aggregation in Language Models [75.29749026964154]
Ourmethodは、複数のベンチマークで平均的な攻撃成功率を4.41%に下げる。
クリーンな精度と実用性はオリジナルのモデルの0.5%以内に保存される。
防衛はさまざまな種類のバックドアをまたいで一般化し、実際のデプロイメントシナリオにおける堅牢性を確認します。
論文 参考訳(メタデータ) (2025-10-11T15:47:35Z) - Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z) - Trigger without Trace: Towards Stealthy Backdoor Attack on Text-to-Image Diffusion Models [70.03122709795122]
テキストと画像の拡散モデルをターゲットにしたバックドア攻撃が急速に進んでいる。
現在のバックドアサンプルは良性サンプルと比較して2つの重要な異常を示すことが多い。
我々はこれらの成分を明示的に緩和することでTwT(Trigger without Trace)を提案する。
論文 参考訳(メタデータ) (2025-03-22T10:41:46Z) - REFINE: Inversion-Free Backdoor Defense via Model Reprogramming [60.554146386198376]
ディープニューラルネットワーク(DNN)に対するバックドア攻撃は、重大なセキュリティ脅威として浮上している。
モデル再プログラミングに基づく逆フリーバックドア防御手法であるREFINEを提案する。
論文 参考訳(メタデータ) (2025-02-22T07:29:12Z) - CROW: Eliminating Backdoors from Large Language Models via Internal Consistency Regularization [7.282200564983221]
大規模言語モデル(LLM)は、隠れたトリガーを介して出力を操作するバックドア攻撃に対して脆弱である。
本稿では,バックドアモデルがトリガ時に不安定な層単位の隠蔽表現を示すという観測を生かした内部一貫性規則化(CROW)を提案する。
CROWは、微調整やバックドアの中立化など、クリーンな参照モデルや知識のトリガを必要とせず、小さなクリーンなデータセットのみを使用して、レイヤ間の一貫性を強制する。
論文 参考訳(メタデータ) (2024-11-18T07:52:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。