論文の概要: Backdoor Cleaning without External Guidance in MLLM Fine-tuning
- arxiv url: http://arxiv.org/abs/2505.16916v1
- Date: Thu, 22 May 2025 17:11:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.485956
- Title: Backdoor Cleaning without External Guidance in MLLM Fine-tuning
- Title(参考訳): MLLMファインチューニングにおける外部誘導のないバックドアクリーニング
- Authors: Xuankun Rong, Wenke Huang, Jian Liang, Jinhe Bi, Xun Xiao, Yiming Li, Bo Du, Mang Ye,
- Abstract要約: Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
- 参考スコア(独自算出の注目度): 76.82121084745785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) are increasingly deployed in fine-tuning-as-a-service (FTaaS) settings, where user-submitted datasets adapt general-purpose models to downstream tasks. This flexibility, however, introduces serious security risks, as malicious fine-tuning can implant backdoors into MLLMs with minimal effort. In this paper, we observe that backdoor triggers systematically disrupt cross-modal processing by causing abnormal attention concentration on non-semantic regions--a phenomenon we term attention collapse. Based on this insight, we propose Believe Your Eyes (BYE), a data filtering framework that leverages attention entropy patterns as self-supervised signals to identify and filter backdoor samples. BYE operates via a three-stage pipeline: (1) extracting attention maps using the fine-tuned model, (2) computing entropy scores and profiling sensitive layers via bimodal separation, and (3) performing unsupervised clustering to remove suspicious samples. Unlike prior defenses, BYE equires no clean supervision, auxiliary labels, or model modifications. Extensive experiments across various datasets, models, and diverse trigger types validate BYE's effectiveness: it achieves near-zero attack success rates while maintaining clean-task performance, offering a robust and generalizable solution against backdoor threats in MLLMs.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、ユーザが送信したデータセットがダウンストリームタスクに汎用モデルを適用する、微細チューニング・アズ・ア・サービス(FTaaS)設定にデプロイされることが増えている。
しかしこの柔軟性は、悪質な微調整が最小限の努力でMLLMにバックドアを埋め込むため、重大なセキュリティリスクをもたらす。
本稿では,非セマンティック領域に異常な注意集中を引き起こすことによって,バックドアトリガーがクロスモーダル処理を系統的に阻害する現象を観察する。
この知見に基づいて,注目エントロピーパターンを自己教師信号として活用し,バックドアサンプルの識別とフィルタリングを行うデータフィルタリングフレームワークであるBYEを提案する。
BYEは,(1)微調整モデルを用いたアテンションマップの抽出,(2)両モード分離によるエントロピースコアの計算と機密レイヤのプロファイリング,(3)不審なサンプルを除去するための教師なしクラスタリングを行う。
以前の防衛とは違って、BYEはクリーンな監視、補助ラベル、モデル修正を装備していない。
さまざまなデータセット、モデル、さまざまなトリガータイプにわたる大規模な実験により、BYEの有効性が検証されている。
関連論文リスト
- CROW: Eliminating Backdoors from Large Language Models via Internal Consistency Regularization [7.282200564983221]
大規模言語モデル(LLM)は、バックドア攻撃の影響を受けやすい。
バックドアトリガによる階層的不整合に対処するために、内部一貫性規則化(CROW)を導入する。
CROWは、さまざまなバックドア戦略やタスクにおける攻撃成功率の大幅な削減を一貫して達成している。
論文 参考訳(メタデータ) (2024-11-18T07:52:12Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Effective Backdoor Mitigation in Vision-Language Models Depends on the Pre-training Objective [71.39995120597999]
現代の機械学習モデルは、敵の攻撃やバックドア攻撃に弱い。
このようなリスクは、マルチモーダルモデルをトレーニングするための大規模なインターネットソースデータセット収集の一般的なプラクティスによって高められている。
CleanCLIPは、マルチモーダルモデルにおけるバックドア効果を軽減するための最先端のアプローチである。
論文 参考訳(メタデータ) (2023-11-25T06:55:13Z) - CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive
Learning [63.72975421109622]
CleanCLIPは、バックドア攻撃によって引き起こされる学習された刺激的関連を弱める微調整フレームワークである。
CleanCLIPは、マルチモーダル・コントラッシブ・ラーニングに対するバックドア・アタックを根絶しながら、良質な例によるモデル性能を維持している。
論文 参考訳(メタデータ) (2023-03-06T17:48:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。