論文の概要: IMMA: Immunizing text-to-image Models against Malicious Adaptation
- arxiv url: http://arxiv.org/abs/2311.18815v3
- Date: Sat, 28 Sep 2024 02:34:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:00:00.509843
- Title: IMMA: Immunizing text-to-image Models against Malicious Adaptation
- Title(参考訳): IMMA:悪意ある適応に対するテキスト・ツー・イメージ・モデルへの免疫
- Authors: Amber Yijia Zheng, Raymond A. Yeh,
- Abstract要約: オープンソースのテキスト・ツー・イメージ・モデルと微調整手法は、悪意のある適応のリスク、すなわち、有害で無許可なコンテンツを生成するための微調整のリスクを増大させてきた。
本稿では,悪意のあるコンテンツを微調整する際の適応手法が難しいモデルパラメータを学習し,そのモデルに対する「免疫」を提案する。
実験結果から,IMMAの芸術的スタイルの模倣や不適切・無許可なコンテンツの学習など,悪意ある適応に対する効果が示された。
- 参考スコア(独自算出の注目度): 11.912092139018885
- License:
- Abstract: Advancements in open-sourced text-to-image models and fine-tuning methods have led to the increasing risk of malicious adaptation, i.e., fine-tuning to generate harmful/unauthorized content. Recent works, e.g., Glaze or MIST, have developed data-poisoning techniques which protect the data against adaptation methods. In this work, we consider an alternative paradigm for protection. We propose to ``immunize'' the model by learning model parameters that are difficult for the adaptation methods when fine-tuning malicious content; in short IMMA. Specifically, IMMA should be applied before the release of the model weights to mitigate these risks. Empirical results show IMMA's effectiveness against malicious adaptations, including mimicking the artistic style and learning of inappropriate/unauthorized content, over three adaptation methods: LoRA, Textual-Inversion, and DreamBooth. The code is available at \url{https://github.com/amberyzheng/IMMA}.
- Abstract(参考訳): オープンソースのテキスト・ツー・イメージ・モデルと微調整手法の進歩は、悪意のある適応のリスク、すなわち、有害で無許可なコンテンツを生成するための微調整の増加につながっている。
最近の研究、例えばGlazeやMISTは、データを適応的手法から保護するデータポゾン技術を開発した。
本研究では,保護のための代替パラダイムについて考察する。
本稿では,悪意のあるコンテンツを微調整する際の適応手法が難しいモデルパラメータを学習し,モデルに「免疫」を付与することを提案する。
具体的には、これらのリスクを軽減するため、モデルウェイトのリリース前にIMMAを適用する必要がある。
実験の結果, IMMAは, 芸術的スタイルの模倣や不適切・無許可なコンテンツの学習を含む悪意ある適応に対する効果をLoRA, Textual-Inversion, DreamBoothの3つの適応手法で示している。
コードは \url{https://github.com/amberyzheng/IMMA} で公開されている。
関連論文リスト
- Erasing Undesirable Concepts in Diffusion Models with Adversarial Preservation [22.3077678575067]
拡散モデルは、テキストから視覚的に印象的なコンテンツを生成するのに優れています。
本稿では,パラメータ変化によって最も影響を受ける概念を同定し,保存することを提案する。
安定拡散モデルを用いて本手法の有効性を実証し, 不要なコンテンツの除去において, 最先端の消去方法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-21T03:40:29Z) - RLCP: A Reinforcement Learning-based Copyright Protection Method for Text-to-Image Diffusion Model [42.77851688874563]
テキスト・画像拡散モデルのための強化学習に基づく著作権保護(RLCP)手法を提案する。
提案手法は,モデル生成データセットの品質を維持しつつ,著作権侵害コンテンツの生成を最小限に抑える。
論文 参考訳(メタデータ) (2024-08-29T15:39:33Z) - Pixel Is Not A Barrier: An Effective Evasion Attack for Pixel-Domain Diffusion Models [9.905296922309157]
拡散モデルは高品質な画像合成のための強力な生成モデルとして登場し、それに基づく画像編集技術も数多くある。
従来の研究は、知覚不能な摂動を加えることで、画像の拡散に基づく編集を防ごうとしてきた。
本研究は,UNETの脆弱性を悪用した特徴表現攻撃損失と,保護された画像の自然性を高めるための潜在最適化戦略を備えた,新たな攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-21T17:56:34Z) - Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z) - Covert Malicious Finetuning: Challenges in Safeguarding LLM Adaptation [86.05704141217036]
Black-boxファインタニングは、最先端の言語モデルをユーザのニーズに適応するための、新たなインターフェースである。
本研究では,検出を回避しながら,モデル安全性を損なう手法である隠れ悪意のある微調整を導入する。
論文 参考訳(メタデータ) (2024-06-28T17:05:46Z) - FreezeAsGuard: Mitigating Illegal Adaptation of Diffusion Models via Selective Tensor Freezing [10.557086968942498]
本稿では,拡散モデルの非可逆的適応を可能にする技術であるFreezeAsGuardを提案する。
基本的アプローチは、モデルパブリッシャが不正なモデル適応に不可欠な事前訓練された拡散モデルにおいてテンソルを選択的に凍結することである。
実験の結果,FreezeAsGuardは偽の人物の肖像を制作する違法なモデル適応を緩和する強力な力を持っていることがわかった。
論文 参考訳(メタデータ) (2024-05-24T03:23:51Z) - ModelShield: Adaptive and Robust Watermark against Model Extraction Attack [58.46326901858431]
大規模言語モデル(LLM)は、さまざまな機械学習タスクにまたがる汎用インテリジェンスを示す。
敵はモデル抽出攻撃を利用して モデル生成で符号化された モデルインテリジェンスを盗むことができる
ウォーターマーキング技術は、モデル生成コンテンツにユニークな識別子を埋め込むことによって、このような攻撃を防御する有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-05-03T06:41:48Z) - A Dataset and Benchmark for Copyright Infringement Unlearning from Text-to-Image Diffusion Models [52.49582606341111]
著作権法は、クリエイティブ作品を再生、配布、収益化する排他的権利をクリエイターに与えている。
テキスト・ツー・イメージ・ジェネレーションの最近の進歩は、著作権の執行に重大な課題をもたらしている。
CLIP、ChatGPT、拡散モデルを調和させてデータセットをキュレートする新しいパイプラインを導入する。
論文 参考訳(メタデータ) (2024-01-04T11:14:01Z) - Towards Safe Self-Distillation of Internet-Scale Text-to-Image Diffusion
Models [63.20512617502273]
テキストから画像への拡散モデルにおいて,問題のあるコンテンツ生成を防止するため,SDDと呼ばれる手法を提案する。
本手法は,画像の全体的な品質を劣化させることなく,生成した画像から有害なコンテンツをはるかに多く除去する。
論文 参考訳(メタデータ) (2023-07-12T07:48:29Z) - AdaptGuard: Defending Against Universal Attacks for Model Adaptation [129.2012687550069]
モデル適応アルゴリズムにおいて、ソースドメインから転送されるユニバーサルアタックに対する脆弱性について検討する。
本稿では,モデル適応アルゴリズムの安全性を向上させるために,AdaptGuardというモデル前処理フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-19T07:53:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。