論文の概要: When LoRA Betrays: Backdooring Text-to-Image Models by Masquerading as Benign Adapters
- arxiv url: http://arxiv.org/abs/2602.21977v1
- Date: Wed, 25 Feb 2026 14:56:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.873139
- Title: When LoRA Betrays: Backdooring Text-to-Image Models by Masquerading as Benign Adapters
- Title(参考訳): LoRA Betrays:良質なアダプタとしてのマスクレーディングによるテキスト・ツー・イメージモデルのバックドア化
- Authors: Liangwei Lyu, Jiaqi Xu, Jianwei Ding, Qiyao Deng,
- Abstract要約: Low-Rank Adaptation (LoRA) は、テキストから画像への拡散を効率的に調整する主要な手法として登場した。
MasqLoRAは、独立したLoRAモジュールを攻撃車両として活用する最初の体系的な攻撃フレームワークである。
MasqLoRAの攻撃成功率は99.8%である。
- 参考スコア(独自算出の注目度): 10.859491015719088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-Rank Adaptation (LoRA) has emerged as a leading technique for efficiently fine-tuning text-to-image diffusion models, and its widespread adoption on open-source platforms has fostered a vibrant culture of model sharing and customization. However, the same modular and plug-and-play flexibility that makes LoRA appealing also introduces a broader attack surface. To highlight this risk, we propose Masquerade-LoRA (MasqLoRA), the first systematic attack framework that leverages an independent LoRA module as the attack vehicle to stealthily inject malicious behavior into text-to-image diffusion models. MasqLoRA operates by freezing the base model parameters and updating only the low-rank adapter weights using a small number of "trigger word-target image" pairs. This enables the attacker to train a standalone backdoor LoRA module that embeds a hidden cross-modal mapping: when the module is loaded and a specific textual trigger is provided, the model produces a predefined visual output; otherwise, it behaves indistinguishably from the benign model, ensuring the stealthiness of the attack. Experimental results demonstrate that MasqLoRA can be trained with minimal resource overhead and achieves a high attack success rate of 99.8%. MasqLoRA reveals a severe and unique threat in the AI supply chain, underscoring the urgent need for dedicated defense mechanisms for the LoRA-centric sharing ecosystem.
- Abstract(参考訳): Low-Rank Adaptation (LoRA)は、テキストと画像の拡散モデルを効率的に微調整する主要な技術として登場し、オープンソースプラットフォームに広く採用され、モデル共有とカスタマイズの活発な文化が育ちました。
しかし、LoRAにアピールするモジュールとプラグアンドプレイの柔軟性は同じで、より広いアタックサーフェスも導入されている。
このリスクを浮き彫りにするために,独立したLoRAモジュールを攻撃車両として活用し,テキストから画像への拡散モデルに悪意のある振る舞いを密かに注入する,最初の体系的な攻撃フレームワークであるMasquerade-LoRA(MasqLoRA)を提案する。
MasqLoRAは、基本モデルのパラメータを凍結し、少数の"トリガーワードターゲットイメージ"ペアを使用して、低ランクのアダプタウェイトのみを更新する。
モジュールがロードされ、特定のテキストトリガが提供されると、モデルが事前に定義された視覚的出力を生成します。
実験の結果、MasqLoRAは最小限のリソースオーバーヘッドで訓練でき、攻撃成功率99.8%に達することが示されている。
MasqLoRAは、AIサプライチェーンにおける厳格でユニークな脅威を明らかにし、LoRA中心の共有エコシステムのための専用の防御メカニズムを緊急に必要とすることを強調している。
関連論文リスト
- AuthenLoRA: Entangling Stylization with Imperceptible Watermarks for Copyright-Secure LoRA Adapters [52.556959321030966]
Low-Rank Adaptation (LoRA) は拡散モデルをカスタマイズするための効率的なパラダイムを提供する。
既存の透かし技術はベースモデルをターゲットにするか、LoRAモジュール自体を検証する。
本稿では,LoRAトレーニングプロセスに直接,認識不能でトレーサブルな透かしを埋め込む統一透かしフレームワークであるAuthenLoRAを提案する。
論文 参考訳(メタデータ) (2025-11-26T09:48:11Z) - StolenLoRA: Exploring LoRA Extraction Attacks via Synthetic Data [39.230850434780756]
本稿では,LoRA抽出と呼ばれるモデル抽出攻撃の新たな焦点を紹介する。
代用モデルを用いてLoRA適応モデルの機能を抽出するStolenLoRAと呼ばれる新しい抽出法を提案する。
実験では,StolenLoRAの有効性を実証し,96.60%の攻撃成功率を10kクエリで達成した。
論文 参考訳(メタデータ) (2025-09-28T02:51:35Z) - LoRAShield: Data-Free Editing Alignment for Secure Personalized LoRA Sharing [43.88211522311429]
Low-Rank Adaptation (LoRA)モデルは、CivitaiやLiblibといったプラットフォームで共有できる。
LoRAShieldは、不正使用に対してLoRAモデルをセキュアにするための最初のデータフリーな編集フレームワークである。
論文 参考訳(メタデータ) (2025-07-05T02:53:17Z) - Merger-as-a-Stealer: Stealing Targeted PII from Aligned LLMs with Model Merging [49.270050440553575]
この攻撃を実現するための2段階フレームワークである textttMerger-as-a-Stealer を提案する。
まず、攻撃者は悪意のあるモデルを微調整し、PII関連のクエリに応答するよう強制する。
次に、攻撃者は直接PII関連クエリをマージしたモデルに入力し、ターゲットPIIを抽出する。
論文 参考訳(メタデータ) (2025-02-22T05:34:53Z) - LoRA-X: Bridging Foundation Models with Training-Free Cross-Model Adaptation [48.22550575107633]
新しいアダプタであるCross-Model Low-Rank Adaptation (LoRA-X)は、ソースモデルとターゲットモデル間のLoRAパラメータのトレーニング不要転送を可能にする。
本実験は,テキスト・ツー・イメージ生成におけるLoRA-Xの有効性を示す。
論文 参考訳(メタデータ) (2025-01-27T23:02:24Z) - LoBAM: LoRA-Based Backdoor Attack on Model Merging [27.57659381949931]
モデルマージ(Model merging)は、異なるタスクに微調整された複数のモデルを統合して、複数のドメインにまたがる汎用モデルを作成する、新たなテクニックである。
既存の研究は、かなりの計算資源を仮定することで、そのような攻撃のリスクを実証しようとするものである。
最小限のトレーニングリソースで高い攻撃成功率を得る方法であるLoBAMを提案する。
論文 参考訳(メタデータ) (2024-11-23T20:41:24Z) - LoRATK: LoRA Once, Backdoor Everywhere in the Share-and-Play Ecosystem [55.2986934528672]
タスク強化型LORAにバックドアを注入する方法を検討する。
シンプルで効率的で具体的なレシピで、バックドアのLoRAを一度トレーニングして、シームレスに複数のLoRAとマージできることが分かりました。
我々の研究は、下流の可搬性イットバックドア注入型LORAのトレーニング不要分布の新しい脅威モデルを研究する最初のものである。
論文 参考訳(メタデータ) (2024-02-29T20:25:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。