論文の概要: TraSCE: Trajectory Steering for Concept Erasure
- arxiv url: http://arxiv.org/abs/2412.07658v1
- Date: Tue, 10 Dec 2024 16:45:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:39:33.752551
- Title: TraSCE: Trajectory Steering for Concept Erasure
- Title(参考訳): TraSCE: 概念消去のための軌道ステアリング
- Authors: Anubhav Jain, Yuya Kobayashi, Takashi Shibuya, Yuhta Takida, Nasir Memon, Julian Togelius, Yuki Mitsufuji,
- Abstract要約: テキスト・ツー・イメージ拡散モデルでは,NSFW(No-safe-for-work)画像のような有害なコンテンツを生成することが示されている。
本稿では, 拡散経路を有害な物質の発生から遠ざけるためのTraSCEを提案する。
- 参考スコア(独自算出の注目度): 16.752023123940674
- License:
- Abstract: Recent advancements in text-to-image diffusion models have brought them to the public spotlight, becoming widely accessible and embraced by everyday users. However, these models have been shown to generate harmful content such as not-safe-for-work (NSFW) images. While approaches have been proposed to erase such abstract concepts from the models, jail-breaking techniques have succeeded in bypassing such safety measures. In this paper, we propose TraSCE, an approach to guide the diffusion trajectory away from generating harmful content. Our approach is based on negative prompting, but as we show in this paper, conventional negative prompting is not a complete solution and can easily be bypassed in some corner cases. To address this issue, we first propose a modification of conventional negative prompting. Furthermore, we introduce a localized loss-based guidance that enhances the modified negative prompting technique by steering the diffusion trajectory. We demonstrate that our proposed method achieves state-of-the-art results on various benchmarks in removing harmful content including ones proposed by red teams; and erasing artistic styles and objects. Our proposed approach does not require any training, weight modifications, or training data (both image or prompt), making it easier for model owners to erase new concepts.
- Abstract(参考訳): 近年のテキスト・画像拡散モデルの発展により、一般の注目を集め、日常的に広く利用され、受け入れられるようになった。
しかし、これらのモデルは、NSFW(Not-safe-for-work)イメージのような有害なコンテンツを生成することが示されている。
このような抽象概念をモデルから排除するアプローチが提案されているが、脱獄技術はそのような安全対策を回避できた。
本稿では,TraSCEを提案する。TraSCEは,拡散軌道を有害物質の発生から遠ざけるための手法である。
我々のアプローチは負のプロンプトに基づいているが、本論文で示すように、従来の負のプロンプトは完全な解ではなく、いくつかのコーナーケースでは容易にバイパスできる。
この問題に対処するために、我々はまず、従来の負のプロンプトの修正を提案する。
さらに、拡散軌道を操り、修正された負のプロンプト技術を強化する局所的損失に基づくガイダンスを導入する。
提案手法は,レッドチームによって提案された有害なコンテンツを除去し,芸術的スタイルやオブジェクトを消去する手法である。
提案手法では,トレーニングや重み付け,トレーニングデータ(画像とプロンプトの両方)を一切必要とせず,モデル所有者による新しい概念の削除が容易になる。
関連論文リスト
- ACE: Anti-Editing Concept Erasure in Text-to-Image Models [73.00930293474009]
既存の概念消去手法は、削除された概念がプロンプトから生成されるのを防ぐために優れた結果が得られる。
本稿では、生成時にターゲット概念を消去するだけでなく、編集時に除去する反編集概念消去(ACE)手法を提案する。
論文 参考訳(メタデータ) (2025-01-03T04:57:27Z) - Continuous Concepts Removal in Text-to-image Diffusion Models [27.262721132177845]
著作権を侵害したり、乱暴な主題を描写するコンテンツを作成するためのテキスト・ツー・イメージモデルの可能性について懸念が高まっている。
本稿では,知識蒸留パラダイムを設計したCCRTという新しい手法を提案する。
一連のテキストプロンプトを使用することで、連続的な概念削除プロセス中のテキストイメージのアライメント動作を制限します。
論文 参考訳(メタデータ) (2024-11-30T20:40:10Z) - Safety Alignment Backfires: Preventing the Re-emergence of Suppressed Concepts in Fine-tuned Text-to-Image Diffusion Models [57.16056181201623]
微調整されたテキストと画像の拡散モデルは、必然的に安全対策を解除し、有害な概念を再現する。
本報告では,Funice-Tuning LoRAコンポーネントとは別に,安全性の低い適応モジュールをトレーニングする,Modular LoRAと呼ばれる新しいソリューションを提案する。
本手法は,新しいタスクにおけるモデルの性能を損なうことなく,有害なコンテンツの再学習を効果的に防止する。
論文 参考訳(メタデータ) (2024-11-30T04:37:38Z) - Growth Inhibitors for Suppressing Inappropriate Image Concepts in Diffusion Models [35.2881940850787]
テキストと画像の拡散モデルは、広範かつ未フィルタリングのトレーニングデータから不適切な概念を不適切な方法で学習する。
本手法は,画像レベルでの微妙な単語の出現を効果的に捉え,ターゲット概念の直接的かつ効率的な消去を可能にする。
論文 参考訳(メタデータ) (2024-08-02T05:17:14Z) - Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z) - Safeguard Text-to-Image Diffusion Models with Human Feedback Inversion [51.931083971448885]
本稿では,Human Feedback Inversion (HFI) というフレームワークを提案する。
実験の結果,画像品質を維持しながら,好ましくないコンテンツ生成を著しく削減し,公的な領域におけるAIの倫理的展開に寄与することが示された。
論文 参考訳(メタデータ) (2024-07-17T05:21:41Z) - Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models [58.74606272936636]
テキスト・ツー・イメージ(T2I)拡散モデルは、テキスト・プロンプトと密接に対応した画像を生成する際、例外的な機能を示す。
モデルは、暴力やヌードの画像を生成したり、不適切な文脈で公共の人物の無許可の肖像画を作成するなど、悪意ある目的のために利用することができる。
悪質な概念や望ましくない概念の発生を防ぐために拡散モデルを変更する概念除去法が提案されている。
論文 参考訳(メタデータ) (2024-06-21T03:58:44Z) - Towards Safe Self-Distillation of Internet-Scale Text-to-Image Diffusion
Models [63.20512617502273]
テキストから画像への拡散モデルにおいて,問題のあるコンテンツ生成を防止するため,SDDと呼ばれる手法を提案する。
本手法は,画像の全体的な品質を劣化させることなく,生成した画像から有害なコンテンツをはるかに多く除去する。
論文 参考訳(メタデータ) (2023-07-12T07:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。