論文の概要: LoRA Patching: Exposing the Fragility of Proactive Defenses against Deepfakes
- arxiv url: http://arxiv.org/abs/2510.03747v1
- Date: Sat, 04 Oct 2025 09:22:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.227625
- Title: LoRA Patching: Exposing the Fragility of Proactive Defenses against Deepfakes
- Title(参考訳): LoRA パッチ: ディープフェイクに対するプロアクティブディフェンスの脆弱性を露呈する
- Authors: Zuomin Qu, Yimao Guo, Qianyue Hu, Wei Lu,
- Abstract要約: Low-Rank Adaptation (LoRA) パッチは、プラグアンドプレイのLoRAパッチをDeepfakeジェネレータに注入し、最先端の防御をバイパスする。
学習可能なゲーティング機構は、LoRAパッチの効果を適応的に制御し、微調整中に爆発を防止する。
わずか1,000の顔例と1つの微調整のエポックで、LoRAパッチは複数のプリエンプティブ・ディフェンスを破ることに成功した。
- 参考スコア(独自算出の注目度): 4.217198925206348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deepfakes pose significant societal risks, motivating the development of proactive defenses that embed adversarial perturbations in facial images to prevent manipulation. However, in this paper, we show that these preemptive defenses often lack robustness and reliability. We propose a novel approach, Low-Rank Adaptation (LoRA) patching, which injects a plug-and-play LoRA patch into Deepfake generators to bypass state-of-the-art defenses. A learnable gating mechanism adaptively controls the effect of the LoRA patch and prevents gradient explosions during fine-tuning. We also introduce a Multi-Modal Feature Alignment (MMFA) loss, encouraging the features of adversarial outputs to align with those of the desired outputs at the semantic level. Beyond bypassing, we present defensive LoRA patching, embedding visible warnings in the outputs as a complementary solution to mitigate this newly identified security vulnerability. With only 1,000 facial examples and a single epoch of fine-tuning, LoRA patching successfully defeats multiple proactive defenses. These results reveal a critical weakness in current paradigms and underscore the need for more robust Deepfake defense strategies. Our code is available at https://github.com/ZOMIN28/LoRA-Patching.
- Abstract(参考訳): ディープフェイクは社会的な大きなリスクを伴い、顔画像に敵の摂動を埋め込んで操作を阻止する積極的な防御の開発を動機付けている。
しかし,本稿では,これらのプリエンプティブ・ディフェンスは堅牢性や信頼性に欠けることが多い。
本稿では,Low-Rank Adaptation (LoRA) パッチ方式を提案する。
学習可能なゲーティング機構は、LoRAパッチの効果を適応的に制御し、微調整中に勾配爆発を防止する。
また,Multi-Modal Feature Alignment (MMFA) の損失を導入し,所望の出力とセマンティックレベルでの一致を図った。
バイパス以外にも、新たに特定されたセキュリティ脆弱性を軽減するための補完的なソリューションとして、出力に可視的な警告を埋め込んだ防御的なLoRAパッチを提示します。
わずか1,000の顔例と1つの微調整のエポックで、LoRAパッチは複数のプロアクティブディフェンスを破ることに成功した。
これらの結果は、現在のパラダイムにおける重大な弱点を明らかにし、より堅牢なディープフェイク防衛戦略の必要性を浮き彫りにしている。
私たちのコードはhttps://github.com/ZOMIN28/LoRA-Patching.comで利用可能です。
関連論文リスト
- Boosting Active Defense Persistence: A Two-Stage Defense Framework Combining Interruption and Poisoning Against Deepfake [14.10448497174767]
我々は、効果的な防御が偽のコンテンツを歪ませるだけでなく、モデルが適応する能力を阻害すると主張している。
これを実現するために,革新的な2段階防衛フレームワーク(TSDF)を提案する。
我々のフレームワークは、アクティブディフェンスの持続性を向上できる強力なデュアルディフェンス能力を示している。
論文 参考訳(メタデータ) (2025-08-11T09:26:48Z) - The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
Vision Large Language Models(VLLMs)のジェイルブレイク攻撃に対する脆弱性は、驚くにあたらない。
これらの攻撃に対する最近の防御機構は、ベンチマーク評価においてほぼ飽和状態に達している。
論文 参考訳(メタデータ) (2024-11-13T07:57:19Z) - LoRATK: LoRA Once, Backdoor Everywhere in the Share-and-Play Ecosystem [55.2986934528672]
タスク強化型LORAにバックドアを注入する方法を検討する。
シンプルで効率的で具体的なレシピで、バックドアのLoRAを一度トレーニングして、シームレスに複数のLoRAとマージできることが分かりました。
我々の研究は、下流の可搬性イットバックドア注入型LORAのトレーニング不要分布の新しい脅威モデルを研究する最初のものである。
論文 参考訳(メタデータ) (2024-02-29T20:25:16Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - PatchGuard: A Provably Robust Defense against Adversarial Patches via
Small Receptive Fields and Masking [46.03749650789915]
画像の制限領域内の画素を任意に修正することで、機械学習モデルの誤分類を誘発することを目的としている。
そこで我々はPatchGuardという汎用防衛フレームワークを提案する。このフレームワークは、局所的な敵パッチに対して高い清潔さを維持しつつ、高い堅牢性を達成できる。
論文 参考訳(メタデータ) (2020-05-17T03:38:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。