論文の概要: ProjLens: Unveiling the Role of Projectors in Multimodal Model Safety
- arxiv url: http://arxiv.org/abs/2604.19083v1
- Date: Tue, 21 Apr 2026 04:52:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.624067
- Title: ProjLens: Unveiling the Role of Projectors in Multimodal Model Safety
- Title(参考訳): ProjLens:マルチモーダルモデル安全性におけるプロジェクタの役割を明らかにする
- Authors: Kun Wang, Cheng Qian, Miao Yu, Lilan Peng, Liang Lin, Jiaming Zhang, Tianyu Zhang, Yu Cheng, Yang Wang,
- Abstract要約: MLLM(Multimodal Large Language Models)は、クロスモーダルな理解と生成において大きな成功を収めていますが、そのデプロイは重大な安全性の脆弱性によって脅かされています。
本稿では,MLLMのバックドアを復号化するための解釈可能性フレームワークであるProjLensを提案する。
- 参考スコア(独自算出の注目度): 54.4092272526747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have achieved remarkable success in cross-modal understanding and generation, yet their deployment is threatened by critical safety vulnerabilities. While prior works have demonstrated the feasibility of backdoors in MLLMs via fine-tuning data poisoning to manipulate inference, the underlying mechanisms of backdoor attacks remain opaque, complicating the understanding and mitigation. To bridge this gap, we propose ProjLens, an interpretability framework designed to demystify MLLMs backdoors. We first establish that normal downstream task alignment--even when restricted to projector fine--tuning--introduces vulnerability to backdoor injection, whose activation mechanism is different from that observed in text-only LLMs. Through extensive experiments across four backdoor variants, we uncover:(1) Low-Rank Structure: Backdoor injection updates appear overall full-rank and lack dedicated ``trigger neurons'', but the backdoor-critical parameters are encoded within a low-rank subspace of the projector;(2) Activation Mechanism: Both clean and poisoned embedding undergoes a semantic shift toward a shared direction aligned with the backdoor target, but the shifting magnitude scales linearly with the input norm, resulting in the distinct backdoor activation on poisoned samples. Our code is available at: https://anonymous.4open.science/r/ProjLens-8FD7
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、クロスモーダルな理解と生成において大きな成功を収めていますが、そのデプロイは重大な安全性の脆弱性によって脅かされています。
従来の研究は、推論を操作するための微調整データ中毒によるMLLMのバックドアの実現可能性を示しているが、バックドア攻撃の基盤となるメカニズムは不透明であり、理解と緩和を複雑にしている。
このギャップを埋めるために,MLLMのバックドアをデミスタライズするために設計された解釈可能性フレームワークであるProjLensを提案する。
まず,通常の下流タスクアライメントがプロジェクタの微調整に制限された場合でも,テキストのみのLLMと異なる活性化機構を持つバックドアインジェクションの脆弱性が生じることを確認した。
低ランク構造: バックドアインジェクションの更新は、全体的なフルランクと専用の ''トリガーニューロン'' の欠如を示すが、バックドアクリティカルパラメータはプロジェクターの低ランクサブ空間内にエンコードされている。
私たちのコードは、https://anonymous.4open.science/r/ProjLens-8FD7で利用可能です。
関連論文リスト
- From Poisoned to Aware: Fostering Backdoor Self-Awareness in LLMs [27.723404842086072]
大規模言語モデル(LLM)は、バックドアアタックを通じて偽りの行動を取得することができる。
既存の安全訓練手法では、この脆弱性に対処できない。
バックドアリスクの自己認識を育む新しいポストトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-05T03:55:24Z) - Lethe: Purifying Backdoored Large Language Models with Knowledge Dilution [49.78359632298156]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて優れたパフォーマンスを達成し、大幅な進歩を遂げている。
標準クエリではモデルが正常に動作しますが、特定のトリガがアクティブになると、有害な応答や意図しない出力を生成します。
本稿では,LLMからのバックドアの挙動を知識希釈により除去する新しい手法LETHEを提案する。
論文 参考訳(メタデータ) (2025-08-28T17:05:18Z) - When Backdoors Speak: Understanding LLM Backdoor Attacks Through Model-Generated Explanations [58.27927090394458]
大規模言語モデル(LLM)は、バックドア攻撃に弱いことが知られている。
本稿では,自然言語説明の新しいレンズによるバックドア攻撃について検討する。
以上の結果から,バックドアモデルではクリーンな入力に対してコヒーレントな説明が得られたが,有毒なデータに対して多様かつ論理的に欠陥のある説明が得られた。
論文 参考訳(メタデータ) (2024-11-19T18:11:36Z) - MEGen: Generative Backdoor into Large Language Models via Model Editing [36.67048791892558]
本稿では,バックドア型大規模言語モデル(LLM)の影響に焦点を当てる。
生成タスクへのバックドア拡張を目的とした,編集ベースの生成バックドアMEGenを提案する。
実験の結果,MEGenは局所パラメータの小さなセットだけを調整することで,高い攻撃成功率を達成することがわかった。
論文 参考訳(メタデータ) (2024-08-20T10:44:29Z) - Simulate and Eliminate: Revoke Backdoors for Generative Large Language Models [42.19147076519423]
生成型大規模言語モデル(LLM)は、理解から推論まで、様々な自然言語処理(NLP)タスクを支配している。
悪意のある敵は、毒データをオンラインで公開し、毒データに基づいて事前訓練された被害者のLSMに対するバックドア攻撃を行うことができる。
生成LDMの不要なバックドアマッピングを除去するためにSANDE(Simulate and Eliminate)を提案する。
論文 参考訳(メタデータ) (2024-05-13T11:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。