Fugu-MT 論文翻訳(概要): IMMA: Immunizing text-to-image Models against Malicious Adaptation

論文の概要: IMMA: Immunizing text-to-image Models against Malicious Adaptation

arxiv url: http://arxiv.org/abs/2311.18815v2
Date: Tue, 16 Jan 2024 15:23:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-18 20:02:52.226033
Title: IMMA: Immunizing text-to-image Models against Malicious Adaptation
Title（参考訳）: IMMA: 悪意適応に対するテキスト・ツー・イメージの免疫
Authors: Amber Yijia Zheng and Raymond A. Yeh
Abstract要約: 我々は、悪意ある適応に対する保護のための代替パラダイムを考える。本稿では,悪意のあるコンテンツを微調整する際の適応法に難渋するモデルパラメータを学習することにより,モデルの「免疫」を提案する。実験の結果, 悪意のある適応に対するIMMAの有効性は, LoRA, Textual-Inversion, DreamBoothの3つの適応法で示されている。
参考スコア（独自算出の注目度）: 14.072558848402362
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Advancements in text-to-image models and fine-tuning methods have led to the increasing risk of malicious adaptation, i.e., fine-tuning to generate harmful unauthorized content. Recent works, e.g., Glaze or MIST, have developed data-poisoning techniques which protect the data against adaptation methods. In this work, we consider an alternative paradigm for protection. We propose to ``immunize'' the model by learning model parameters that are difficult for the adaptation methods when fine-tuning malicious content; in short IMMA. Empirical results show IMMA's effectiveness against malicious adaptations, including mimicking the artistic style and learning of inappropriate/unauthorized content, over three adaptation methods: LoRA, Textual-Inversion, and DreamBooth.
Abstract（参考訳）: テキストから画像へのモデルの進歩と微調整手法は、有害な不正なコンテンツを生成するための微調整といった悪意ある適応のリスクを増大させている。最近の研究、例えばGlazeやMISTは、データを適応的手法から保護するデータポゾン技術を開発した。本研究では,保護のための代替パラダイムを検討する。本稿では,悪意のあるコンテンツを微調整する際の適応法が難しいモデルパラメータを学習し,モデル「免疫」を提案する。実験の結果, IMMAは, 芸術的スタイルの模倣や不適切・無許可なコンテンツの学習を含む悪意ある適応に対する効果をLoRA, Textual-Inversion, DreamBoothの3つの適応手法で示した。

関連論文リスト

TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models [53.937498564603054]
近年のテキスト・画像拡散モデルの進歩により、フォトリアリスティックな画像生成が可能になったが、NSFW画像のような悪意のあるコンテンツを生成するリスクもある。リスクを軽減するため,概念消去手法が研究され,モデルが特定の概念を学習しやすくする。本稿では,2段階のコンセプト消去戦略を用いて,信頼性の高い消去と知識保存の効果的なトレードオフを実現するTRCEを提案する。
論文参考訳（メタデータ） (2025-03-10T14:37:53Z)
DELMAN: Dynamic Defense Against Large Language Model Jailbreaking with Model Editing [62.43110639295449]
大きな言語モデル(LLM)は意思決定に広く適用されているが、そのデプロイはJailbreak攻撃によって脅かされている。 Delmanは、jailbreak攻撃に対する厳密でダイナミックな保護のために、直接モデル編集を活用する新しいアプローチである。 Delman氏は、モデルの有用性を維持しながら有害な振る舞いを中和するために、関連するパラメータの最小セットを直接更新する。
論文参考訳（メタデータ） (2025-02-17T10:39:21Z)
Safety Alignment Backfires: Preventing the Re-emergence of Suppressed Concepts in Fine-tuned Text-to-Image Diffusion Models [57.16056181201623]
微調整されたテキストと画像の拡散モデルは、必然的に安全対策を解除し、有害な概念を再現する。本報告では,Funice-Tuning LoRAコンポーネントとは別に,安全性の低い適応モジュールをトレーニングする,Modular LoRAと呼ばれる新しいソリューションを提案する。本手法は,新しいタスクにおけるモデルの性能を損なうことなく,有害なコンテンツの再学習を効果的に防止する。
論文参考訳（メタデータ） (2024-11-30T04:37:38Z)
Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [88.18235230849554]
大規模で未処理のデータセットでマルチモーダル生成モデルをトレーニングすることで、ユーザは有害で安全でない、議論の余地のない、文化的に不適切なアウトプットにさらされる可能性がある。我々は、安全な埋め込みと、より安全な画像を生成するために、潜伏空間の重み付け可能な総和による修正拡散プロセスを活用する。安全と検閲のトレードオフを特定し、倫理的AIモデルの開発に必要な視点を提示します。
論文参考訳（メタデータ） (2024-11-21T09:47:13Z)
Erasing Undesirable Concepts in Diffusion Models with Adversarial Preservation [22.3077678575067]
拡散モデルは、テキストから視覚的に印象的なコンテンツを生成するのに優れています。本稿では,パラメータ変化によって最も影響を受ける概念を同定し,保存することを提案する。安定拡散モデルを用いて本手法の有効性を実証し, 不要なコンテンツの除去において, 最先端の消去方法より優れていることを示す。
論文参考訳（メタデータ） (2024-10-21T03:40:29Z)
RLCP: A Reinforcement Learning-based Copyright Protection Method for Text-to-Image Diffusion Model [42.77851688874563]
テキスト・画像拡散モデルのための強化学習に基づく著作権保護(RLCP)手法を提案する。提案手法は,モデル生成データセットの品質を維持しつつ,著作権侵害コンテンツの生成を最小限に抑える。
論文参考訳（メタデータ） (2024-08-29T15:39:33Z)
Pixel Is Not A Barrier: An Effective Evasion Attack for Pixel-Domain Diffusion Models [9.905296922309157]
拡散モデルは高品質な画像合成のための強力な生成モデルとして登場し、それに基づく画像編集技術も数多くある。従来の研究は、知覚不能な摂動を加えることで、画像の拡散に基づく編集を防ごうとしてきた。本研究は,UNETの脆弱性を悪用した特徴表現攻撃損失と,保護された画像の自然性を高めるための潜在最適化戦略を備えた,新たな攻撃フレームワークを提案する。
論文参考訳（メタデータ） (2024-08-21T17:56:34Z)
Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文参考訳（メタデータ） (2024-07-17T08:04:28Z)
Covert Malicious Finetuning: Challenges in Safeguarding LLM Adaptation [86.05704141217036]
Black-boxファインタニングは、最先端の言語モデルをユーザのニーズに適応するための、新たなインターフェースである。本研究では,検出を回避しながら,モデル安全性を損なう手法である隠れ悪意のある微調整を導入する。
論文参考訳（メタデータ） (2024-06-28T17:05:46Z)
FreezeAsGuard: Mitigating Illegal Adaptation of Diffusion Models via Selective Tensor Freezing [10.557086968942498]
本稿では,拡散モデルの非可逆的適応を可能にする技術であるFreezeAsGuardを提案する。基本的アプローチは、モデルパブリッシャが不正なモデル適応に不可欠な事前訓練された拡散モデルにおいてテンソルを選択的に凍結することである。実験の結果,FreezeAsGuardは偽の人物の肖像を制作する違法なモデル適応を緩和する強力な力を持っていることがわかった。
論文参考訳（メタデータ） (2024-05-24T03:23:51Z)
ModelShield: Adaptive and Robust Watermark against Model Extraction Attack [58.46326901858431]
大規模言語モデル(LLM)は、さまざまな機械学習タスクにまたがる汎用インテリジェンスを示す。敵はモデル抽出攻撃を利用してモデル生成で符号化されたモデルインテリジェンスを盗むことができるウォーターマーキング技術は、モデル生成コンテンツにユニークな識別子を埋め込むことによって、このような攻撃を防御する有望なソリューションを提供する。
論文参考訳（メタデータ） (2024-05-03T06:41:48Z)
A Dataset and Benchmark for Copyright Infringement Unlearning from Text-to-Image Diffusion Models [52.49582606341111]
著作権法は、クリエイティブ作品を再生、配布、収益化する排他的権利をクリエイターに与えている。テキスト・ツー・イメージ・ジェネレーションの最近の進歩は、著作権の執行に重大な課題をもたらしている。 CLIP、ChatGPT、拡散モデルを調和させてデータセットをキュレートする新しいパイプラインを導入する。
論文参考訳（メタデータ） (2024-01-04T11:14:01Z)
Towards Safe Self-Distillation of Internet-Scale Text-to-Image Diffusion Models [63.20512617502273]
テキストから画像への拡散モデルにおいて,問題のあるコンテンツ生成を防止するため,SDDと呼ばれる手法を提案する。本手法は,画像の全体的な品質を劣化させることなく,生成した画像から有害なコンテンツをはるかに多く除去する。
論文参考訳（メタデータ） (2023-07-12T07:48:29Z)
AdaptGuard: Defending Against Universal Attacks for Model Adaptation [129.2012687550069]
モデル適応アルゴリズムにおいて、ソースドメインから転送されるユニバーサルアタックに対する脆弱性について検討する。本稿では,モデル適応アルゴリズムの安全性を向上させるために,AdaptGuardというモデル前処理フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-19T07:53:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。