論文の概要: LoRAShield: Data-Free Editing Alignment for Secure Personalized LoRA Sharing
- arxiv url: http://arxiv.org/abs/2507.07056v1
- Date: Sat, 05 Jul 2025 02:53:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.701639
- Title: LoRAShield: Data-Free Editing Alignment for Secure Personalized LoRA Sharing
- Title(参考訳): LoRAShield: セキュアなパーソナライズされたLoRA共有のためのデータフリー編集アライメント
- Authors: Jiahao Chen, junhao li, Yiming Wang, Zhe Ma, Yi Jiang, Chunyi Zhou, Qingming Li, Tianyu Du, Shouling Ji,
- Abstract要約: Low-Rank Adaptation (LoRA)モデルは、CivitaiやLiblibといったプラットフォームで共有できる。
LoRAShieldは、不正使用に対してLoRAモデルをセキュアにするための最初のデータフリーな編集フレームワークである。
- 参考スコア(独自算出の注目度): 43.88211522311429
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proliferation of Low-Rank Adaptation (LoRA) models has democratized personalized text-to-image generation, enabling users to share lightweight models (e.g., personal portraits) on platforms like Civitai and Liblib. However, this "share-and-play" ecosystem introduces critical risks: benign LoRAs can be weaponized by adversaries to generate harmful content (e.g., political, defamatory imagery), undermining creator rights and platform safety. Existing defenses like concept-erasure methods focus on full diffusion models (DMs), neglecting LoRA's unique role as a modular adapter and its vulnerability to adversarial prompt engineering. To bridge this gap, we propose LoRAShield, the first data-free editing framework for securing LoRA models against misuse. Our platform-driven approach dynamically edits and realigns LoRA's weight subspace via adversarial optimization and semantic augmentation. Experimental results demonstrate that LoRAShield achieves remarkable effectiveness, efficiency, and robustness in blocking malicious generations without sacrificing the functionality of the benign task. By shifting the defense to platforms, LoRAShield enables secure, scalable sharing of personalized models, a critical step toward trustworthy generative ecosystems.
- Abstract(参考訳): Low-Rank Adaptation (LoRA)モデルの普及により、パーソナライズされたテキスト・ツー・イメージ生成が民主化され、ユーザーはCivitaiやLiblibといったプラットフォーム上で軽量なモデル(例えば個人の肖像画)を共有できるようになった。
しかし、この「シェア・アンド・プレイ」エコシステムは、重要なリスクをもたらす: 良心的なLoRAは敵によって武器化され、有害なコンテンツ(政治的、破壊的なイメージなど)を生成し、クリエーターの権利とプラットフォームの安全性を損なう。
概念消去法のような既存の防御はフル拡散モデル(DM)に重点を置いており、モジュラーアダプタとしてのLoRAのユニークな役割と、対向的なプロンプトエンジニアリングに対する脆弱性を無視している。
このギャップを埋めるために、我々はLoRAモデルの不正使用に対する安全性を確保するための最初のデータフリー編集フレームワークであるLoRAShieldを提案する。
我々のプラットフォーム駆動型アプローチは、対角最適化と意味拡張を通じて、LoRAの重み部分空間を動的に編集し、認識する。
実験結果から,LoRAShieldは悪質な世代をブロックする上で,良質なタスクの機能を犠牲にすることなく,顕著な有効性,効率,堅牢性を実現することが示された。
防衛をプラットフォームに移行することで、LoRAShieldはパーソナライズされたモデルのセキュアでスケーラブルな共有を可能にします。
関連論文リスト
- ZKLoRA: Efficient Zero-Knowledge Proofs for LoRA Verification [0.20482269513546458]
Low-Rank Adaptation (LoRA)は、大規模言語モデルをカスタマイズするための広く採用されている手法である。
分散型で信頼できないトレーニング環境では、オープンソースのベースモデルユーザは、外部コントリビュータによって生成されたLoRAウェイトを使いたいかもしれません。
ZKLoRAは,簡潔な証明と新しいマルチパーティ推論手法に依存するゼロ知識検証プロトコルである。
論文 参考訳(メタデータ) (2025-01-21T23:20:33Z) - Safe LoRA: the Silver Lining of Reducing Safety Risks when Fine-tuning Large Language Models [51.20476412037321]
提案するSafe LoRAは,選択した層からのLoRA重みの投影を安全に整合した部分空間に導入することにより,オリジナルのLoRA実装に対する単純なワンライナーパッチである。
我々の実験は、純粋に悪意のあるデータに対して微調整を行う場合、Safe LoRAは元のアライメントモデルと同様の安全性を保っていることを示した。
論文 参考訳(メタデータ) (2024-05-27T05:04:05Z) - LoRATK: LoRA Once, Backdoor Everywhere in the Share-and-Play Ecosystem [55.2986934528672]
タスク強化型LORAにバックドアを注入する方法を検討する。
シンプルで効率的で具体的なレシピで、バックドアのLoRAを一度トレーニングして、シームレスに複数のLoRAとマージできることが分かりました。
我々の研究は、下流の可搬性イットバックドア注入型LORAのトレーニング不要分布の新しい脅威モデルを研究する最初のものである。
論文 参考訳(メタデータ) (2024-02-29T20:25:16Z) - Privacy-Preserving Low-Rank Adaptation against Membership Inference Attacks for Latent Diffusion Models [18.472894244598503]
低ランク適応(LoRA)は、個人データセットに潜時拡散モデル(LDM)を適用して特定の画像を生成するための効率的な戦略である。
しかし、LoRAに適応したLDMは、特定のデータポイントがプライベートデータセットに属するかどうかを判断できるメンバーシップ推論(MI)攻撃に弱い。
我々はMI攻撃を防ぎ,高品質な画像を生成するために,MP-LoRA(Community-Privacy-Reserving LoRA)を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:32:48Z) - ZipLoRA: Any Subject in Any Style by Effectively Merging LoRAs [56.85106417530364]
低ランク適応(LoRA)は概念駆動型パーソナライゼーションを実現するためのパラメータ効率のよい方法として提案されている。
我々は、独立に訓練されたスタイルと主題のLoRAを安価かつ効果的にマージするZipLoRAを提案する。
実験により、ZipLoRAは主観とスタイルの忠実さのベースラインよりも有意義な改善を施した魅力的な結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-22T18:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。