論文の概要: TCAP: Tri-Component Attention Profiling for Unsupervised Backdoor Detection in MLLM Fine-Tuning
- arxiv url: http://arxiv.org/abs/2601.21692v1
- Date: Thu, 29 Jan 2026 13:26:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.844894
- Title: TCAP: Tri-Component Attention Profiling for Unsupervised Backdoor Detection in MLLM Fine-Tuning
- Title(参考訳): TCAP:MLLMファインチューニングにおける非教師付きバックドア検出のための三成分アテンションプロファイリング
- Authors: Mingzu Liu, Hao Fang, Runmin Cong,
- Abstract要約: ファインチューニング・アズ・ア・サービス(FT)はマルチモーダル大言語モデル(MLLM)のカスタマイズを容易にする
既存の防御は、監視された信号に依存するか、様々なトリガータイプやモダリティにまたがる一般化に失敗する。
バックドアサンプルをフィルタする非教師付き防御フレームワークであるTri-Component Attention Profiling (TCAP)を提案する。
- 参考スコア(独自算出の注目度): 28.132960300152742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-Tuning-as-a-Service (FTaaS) facilitates the customization of Multimodal Large Language Models (MLLMs) but introduces critical backdoor risks via poisoned data. Existing defenses either rely on supervised signals or fail to generalize across diverse trigger types and modalities. In this work, we uncover a universal backdoor fingerprint-attention allocation divergence-where poisoned samples disrupt the balanced attention distribution across three functional components: system instructions, vision inputs, and user textual queries, regardless of trigger morphology. Motivated by this insight, we propose Tri-Component Attention Profiling (TCAP), an unsupervised defense framework to filter backdoor samples. TCAP decomposes cross-modal attention maps into the three components, identifies trigger-responsive attention heads via Gaussian Mixture Model (GMM) statistical profiling, and isolates poisoned samples through EM-based vote aggregation. Extensive experiments across diverse MLLM architectures and attack methods demonstrate that TCAP achieves consistently strong performance, establishing it as a robust and practical backdoor defense in MLLMs.
- Abstract(参考訳): Fine-Tuning-as-a-Service (FTaaS) はマルチモーダル大規模言語モデル (MLLM) のカスタマイズを容易にするが、有毒データによる重要なバックドアリスクを導入する。
既存の防御は、監視された信号に依存するか、様々なトリガータイプやモダリティにまたがる一般化に失敗する。
本研究では,3つの機能成分(システムインストラクション,視覚入力,ユーザテキストクエリ)のバランスのとれた注意分布を,トリガ形態に関わらず破壊する,普遍的なバックドア指紋・アテンション割り当てのばらつきを明らかにする。
この知見に触発されて,バックドアサンプルをフィルタする非教師付き防御フレームワークTCAPを提案する。
TCAPは3つのコンポーネントに横断的な注意マップを分解し、Gaussian Mixture Model(GMM)統計プロファイリングを介してトリガー応答型注意ヘッドを特定し、EMベースの投票アグリゲーションを通じて有毒なサンプルを分離する。
多様なMLLMアーキテクチャとアタック手法にわたる大規模な実験により、TAPは一貫して強力な性能を発揮し、MLLMの堅牢で実用的なバックドアディフェンスとして確立した。
関連論文リスト
- Visual Backdoor Attacks on MLLM Embodied Decision Making via Contrastive Trigger Learning [89.1856483797116]
MLLMをベースとした組込みエージェントに視覚的バックドアを注入する最初のフレームワークであるBEATを紹介する。
テキストトリガーとは異なり、オブジェクトトリガーは視点や照明の幅が広いため、確実に移植することは困難である。
BEATは攻撃の成功率を最大80%まで達成し、強い良識のあるタスクパフォーマンスを維持します。
論文 参考訳(メタデータ) (2025-10-31T16:50:49Z) - RHINO: Guided Reasoning for Mapping Network Logs to Adversarial Tactics and Techniques with Large Language Models [9.065322387043546]
人間の推論を反映した3つの解釈可能なフェーズに大言語モデルを分解するフレームワークであるRHINOを紹介する。
RHINOは、構造的推論による出力信頼性を改善しながら、低レベルの観測と反対方向のセマンティックギャップを橋渡しする。
以上の結果から,RHINOは脅威解析の解釈可能性やスケーラビリティを著しく向上させ,LLMを運用上のセキュリティ設定にデプロイするための青写真を提供することが示された。
論文 参考訳(メタデータ) (2025-10-16T02:25:46Z) - Detection Method for Prompt Injection by Integrating Pre-trained Model and Heuristic Feature Engineering [3.0823377252469144]
即時注射攻撃は 重大な セキュリティ上の脅威として現れました
既存の防御機構は、有効性と一般化性の間のトレードオフに直面している。
本稿では,デュアルチャネル機能融合検出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-05T06:01:19Z) - Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive
Learning [63.72975421109622]
CleanCLIPは、バックドア攻撃によって引き起こされる学習された刺激的関連を弱める微調整フレームワークである。
CleanCLIPは、マルチモーダル・コントラッシブ・ラーニングに対するバックドア・アタックを根絶しながら、良質な例によるモデル性能を維持している。
論文 参考訳(メタデータ) (2023-03-06T17:48:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。