論文の概要: IMMA: Immunizing text-to-image Models against Malicious Adaptation
- arxiv url: http://arxiv.org/abs/2311.18815v3
- Date: Sat, 28 Sep 2024 02:34:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:00:00.509843
- Title: IMMA: Immunizing text-to-image Models against Malicious Adaptation
- Title(参考訳): IMMA:悪意ある適応に対するテキスト・ツー・イメージ・モデルへの免疫
- Authors: Amber Yijia Zheng, Raymond A. Yeh,
- Abstract要約: オープンソースのテキスト・ツー・イメージ・モデルと微調整手法は、悪意のある適応のリスク、すなわち、有害で無許可なコンテンツを生成するための微調整のリスクを増大させてきた。
本稿では,悪意のあるコンテンツを微調整する際の適応手法が難しいモデルパラメータを学習し,そのモデルに対する「免疫」を提案する。
実験結果から,IMMAの芸術的スタイルの模倣や不適切・無許可なコンテンツの学習など,悪意ある適応に対する効果が示された。
- 参考スコア(独自算出の注目度): 11.912092139018885
- License:
- Abstract: Advancements in open-sourced text-to-image models and fine-tuning methods have led to the increasing risk of malicious adaptation, i.e., fine-tuning to generate harmful/unauthorized content. Recent works, e.g., Glaze or MIST, have developed data-poisoning techniques which protect the data against adaptation methods. In this work, we consider an alternative paradigm for protection. We propose to ``immunize'' the model by learning model parameters that are difficult for the adaptation methods when fine-tuning malicious content; in short IMMA. Specifically, IMMA should be applied before the release of the model weights to mitigate these risks. Empirical results show IMMA's effectiveness against malicious adaptations, including mimicking the artistic style and learning of inappropriate/unauthorized content, over three adaptation methods: LoRA, Textual-Inversion, and DreamBooth. The code is available at \url{https://github.com/amberyzheng/IMMA}.
- Abstract(参考訳): オープンソースのテキスト・ツー・イメージ・モデルと微調整手法の進歩は、悪意のある適応のリスク、すなわち、有害で無許可なコンテンツを生成するための微調整の増加につながっている。
最近の研究、例えばGlazeやMISTは、データを適応的手法から保護するデータポゾン技術を開発した。
本研究では,保護のための代替パラダイムについて考察する。
本稿では,悪意のあるコンテンツを微調整する際の適応手法が難しいモデルパラメータを学習し,モデルに「免疫」を付与することを提案する。
具体的には、これらのリスクを軽減するため、モデルウェイトのリリース前にIMMAを適用する必要がある。
実験の結果, IMMAは, 芸術的スタイルの模倣や不適切・無許可なコンテンツの学習を含む悪意ある適応に対する効果をLoRA, Textual-Inversion, DreamBoothの3つの適応手法で示している。
コードは \url{https://github.com/amberyzheng/IMMA} で公開されている。
関連論文リスト
- DELMAN: Dynamic Defense Against Large Language Model Jailbreaking with Model Editing [62.43110639295449]
大きな言語モデル(LLM)は意思決定に広く適用されているが、そのデプロイはJailbreak攻撃によって脅かされている。
Delmanは、jailbreak攻撃に対する厳密でダイナミックな保護のために、直接モデル編集を活用する新しいアプローチである。
Delman氏は、モデルの有用性を維持しながら有害な振る舞いを中和するために、関連するパラメータの最小セットを直接更新する。
論文 参考訳(メタデータ) (2025-02-17T10:39:21Z) - Safety Alignment Backfires: Preventing the Re-emergence of Suppressed Concepts in Fine-tuned Text-to-Image Diffusion Models [57.16056181201623]
微調整されたテキストと画像の拡散モデルは、必然的に安全対策を解除し、有害な概念を再現する。
本報告では,Funice-Tuning LoRAコンポーネントとは別に,安全性の低い適応モジュールをトレーニングする,Modular LoRAと呼ばれる新しいソリューションを提案する。
本手法は,新しいタスクにおけるモデルの性能を損なうことなく,有害なコンテンツの再学習を効果的に防止する。
論文 参考訳(メタデータ) (2024-11-30T04:37:38Z) - RLCP: A Reinforcement Learning-based Copyright Protection Method for Text-to-Image Diffusion Model [42.77851688874563]
テキスト・画像拡散モデルのための強化学習に基づく著作権保護(RLCP)手法を提案する。
提案手法は,モデル生成データセットの品質を維持しつつ,著作権侵害コンテンツの生成を最小限に抑える。
論文 参考訳(メタデータ) (2024-08-29T15:39:33Z) - Pixel Is Not a Barrier: An Effective Evasion Attack for Pixel-Domain Diffusion Models [9.905296922309157]
拡散モデルは高品質な画像合成のための強力な生成モデルとして登場し、それに基づく画像編集技術も数多くある。
従来の研究は、知覚不能な摂動を加えることで、画像の拡散に基づく編集を防ごうとしてきた。
本研究は,UNETの脆弱性を利用した新たな攻撃フレームワークであるAtkPDMと,敵画像の自然性を高めるための潜在最適化戦略を提案する。
論文 参考訳(メタデータ) (2024-08-21T17:56:34Z) - Covert Malicious Finetuning: Challenges in Safeguarding LLM Adaptation [86.05704141217036]
Black-boxファインタニングは、最先端の言語モデルをユーザのニーズに適応するための、新たなインターフェースである。
本研究では,検出を回避しながら,モデル安全性を損なう手法である隠れ悪意のある微調整を導入する。
論文 参考訳(メタデータ) (2024-06-28T17:05:46Z) - FreezeAsGuard: Mitigating Illegal Adaptation of Diffusion Models via Selective Tensor Freezing [9.598086319369694]
本稿では,拡散モデルの非可逆的適応を可能にする技術であるFreezeAsGuardを提案する。
実験結果から,FreezeAsGuardは,競争ベースラインと比較して,違法なモデル適応を緩和する上で,37%の強力なパワーを提供することがわかった。
論文 参考訳(メタデータ) (2024-05-24T03:23:51Z) - ModelShield: Adaptive and Robust Watermark against Model Extraction Attack [58.46326901858431]
大規模言語モデル(LLM)は、さまざまな機械学習タスクにまたがる汎用インテリジェンスを示す。
敵はモデル抽出攻撃を利用して モデル生成で符号化された モデルインテリジェンスを盗むことができる
ウォーターマーキング技術は、モデル生成コンテンツにユニークな識別子を埋め込むことによって、このような攻撃を防御する有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-05-03T06:41:48Z) - A Dataset and Benchmark for Copyright Infringement Unlearning from Text-to-Image Diffusion Models [52.49582606341111]
著作権法は、クリエイティブ作品を再生、配布、収益化する排他的権利をクリエイターに与えている。
テキスト・ツー・イメージ・ジェネレーションの最近の進歩は、著作権の執行に重大な課題をもたらしている。
CLIP、ChatGPT、拡散モデルを調和させてデータセットをキュレートする新しいパイプラインを導入する。
論文 参考訳(メタデータ) (2024-01-04T11:14:01Z) - Towards Safe Self-Distillation of Internet-Scale Text-to-Image Diffusion
Models [63.20512617502273]
テキストから画像への拡散モデルにおいて,問題のあるコンテンツ生成を防止するため,SDDと呼ばれる手法を提案する。
本手法は,画像の全体的な品質を劣化させることなく,生成した画像から有害なコンテンツをはるかに多く除去する。
論文 参考訳(メタデータ) (2023-07-12T07:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。