Fugu-MT 論文翻訳(概要): TraSCE: Trajectory Steering for Concept Erasure

論文の概要: TraSCE: Trajectory Steering for Concept Erasure

arxiv url: http://arxiv.org/abs/2412.07658v1
Date: Tue, 10 Dec 2024 16:45:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-11 22:09:45.436148
Title: TraSCE: Trajectory Steering for Concept Erasure
Title（参考訳）: TraSCE: 概念消去のための軌道ステアリング
Authors: Anubhav Jain, Yuya Kobayashi, Takashi Shibuya, Yuhta Takida, Nasir Memon, Julian Togelius, Yuki Mitsufuji,
Abstract要約: テキスト・ツー・イメージ拡散モデルでは,NSFW(No-safe-for-work)画像のような有害なコンテンツを生成することが示されている。本稿では, 拡散経路を有害な物質の発生から遠ざけるためのTraSCEを提案する。
参考スコア（独自算出の注目度）: 16.752023123940674
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in text-to-image diffusion models have brought them to the public spotlight, becoming widely accessible and embraced by everyday users. However, these models have been shown to generate harmful content such as not-safe-for-work (NSFW) images. While approaches have been proposed to erase such abstract concepts from the models, jail-breaking techniques have succeeded in bypassing such safety measures. In this paper, we propose TraSCE, an approach to guide the diffusion trajectory away from generating harmful content. Our approach is based on negative prompting, but as we show in this paper, conventional negative prompting is not a complete solution and can easily be bypassed in some corner cases. To address this issue, we first propose a modification of conventional negative prompting. Furthermore, we introduce a localized loss-based guidance that enhances the modified negative prompting technique by steering the diffusion trajectory. We demonstrate that our proposed method achieves state-of-the-art results on various benchmarks in removing harmful content including ones proposed by red teams; and erasing artistic styles and objects. Our proposed approach does not require any training, weight modifications, or training data (both image or prompt), making it easier for model owners to erase new concepts.
Abstract（参考訳）: 近年のテキスト・画像拡散モデルの発展により、一般の注目を集め、日常的に広く利用され、受け入れられるようになった。しかし、これらのモデルは、NSFW(Not-safe-for-work)イメージのような有害なコンテンツを生成することが示されている。このような抽象概念をモデルから排除するアプローチが提案されているが、脱獄技術はそのような安全対策を回避できた。本稿では,TraSCEを提案する。TraSCEは,拡散軌道を有害物質の発生から遠ざけるための手法である。我々のアプローチは負のプロンプトに基づいているが、本論文で示すように、従来の負のプロンプトは完全な解ではなく、いくつかのコーナーケースでは容易にバイパスできる。この問題に対処するために、我々はまず、従来の負のプロンプトの修正を提案する。さらに、拡散軌道を操り、修正された負のプロンプト技術を強化する局所的損失に基づくガイダンスを導入する。提案手法は,レッドチームによって提案された有害なコンテンツを除去し,芸術的スタイルやオブジェクトを消去する手法である。提案手法では,トレーニングや重み付け,トレーニングデータ(画像とプロンプトの両方)を一切必要とせず,モデル所有者による新しい概念の削除が容易になる。

関連論文リスト

TRACE: Trajectory-Constrained Concept Erasure in Diffusion Models [0.0]
概念消去は、生成モデルにおいて特定の概念情報を削除または抑制することを目的としている。 Trajectory-Constrained Attentional Concept Erasure (TRACE) は拡散モデルから対象概念を消去する新しい手法である。 TRACEは最先端のパフォーマンスを実現し、ANT、EraseAnything、MACEといった最近の手法よりも、除去効率と出力品質の点で優れています。
論文参考訳（メタデータ） (2025-05-29T10:15:22Z)
TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models [45.393001061726366]
近年のテキスト・画像拡散モデルの進歩により、フォトリアリスティックな画像生成が可能になったが、NSFW画像のような悪意のあるコンテンツを生成するリスクもある。リスクを軽減するため,概念消去手法が研究され,モデルが特定の概念を学習しやすくする。本稿では,2段階のコンセプト消去戦略を用いて,信頼性の高い消去と知識保存の効果的なトレードオフを実現するTRCEを提案する。
論文参考訳（メタデータ） (2025-03-10T14:37:53Z)
On the Vulnerability of Concept Erasure in Diffusion Models [13.916443687966039]
マシン・アンラーニングの研究は、ホック後のトレーニングを通じて不要なデータの影響を除去することを目的とした、様々な概念消去手法を開発した。これらの消去技術は脆弱であり、敵に製作されたプロンプトを用いて、消去されたとされる概念のイメージを生成可能であることを示す。本稿では, 削除コンテンツの生成を誘導できるプロンプトを検出するアルゴリズムであるRECORDを紹介する。
論文参考訳（メタデータ） (2025-02-24T17:26:01Z)
ACE: Anti-Editing Concept Erasure in Text-to-Image Models [73.00930293474009]
既存の概念消去手法は、削除された概念がプロンプトから生成されるのを防ぐために優れた結果が得られる。本稿では、生成時にターゲット概念を消去するだけでなく、編集時に除去する反編集概念消去(ACE)手法を提案する。
論文参考訳（メタデータ） (2025-01-03T04:57:27Z)
Continuous Concepts Removal in Text-to-image Diffusion Models [27.262721132177845]
著作権を侵害したり、乱暴な主題を描写するコンテンツを作成するためのテキスト・ツー・イメージモデルの可能性について懸念が高まっている。本稿では,知識蒸留パラダイムを設計したCCRTという新しい手法を提案する。一連のテキストプロンプトを使用することで、連続的な概念削除プロセス中のテキストイメージのアライメント動作を制限します。
論文参考訳（メタデータ） (2024-11-30T20:40:10Z)
Safety Alignment Backfires: Preventing the Re-emergence of Suppressed Concepts in Fine-tuned Text-to-Image Diffusion Models [57.16056181201623]
微調整されたテキストと画像の拡散モデルは、必然的に安全対策を解除し、有害な概念を再現する。本報告では,Funice-Tuning LoRAコンポーネントとは別に,安全性の低い適応モジュールをトレーニングする,Modular LoRAと呼ばれる新しいソリューションを提案する。本手法は,新しいタスクにおけるモデルの性能を損なうことなく,有害なコンテンツの再学習を効果的に防止する。
論文参考訳（メタデータ） (2024-11-30T04:37:38Z)
EIUP: A Training-Free Approach to Erase Non-Compliant Concepts Conditioned on Implicit Unsafe Prompts [32.590822043053734]
非有毒なテキストは、暗黙の安全でないプロンプトと呼ばれる非準拠のイメージを生成するリスクを伴っている。我々は、非準拠の概念を消去プロンプトに組み込む、単純で効果的なアプローチを提案する。本手法は,画像の忠実度を高いスコアで評価しながら,優れた消去効果を示す。
論文参考訳（メタデータ） (2024-08-02T05:17:14Z)
Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文参考訳（メタデータ） (2024-07-17T08:04:28Z)
Safeguard Text-to-Image Diffusion Models with Human Feedback Inversion [51.931083971448885]
本稿では,Human Feedback Inversion (HFI) というフレームワークを提案する。実験の結果,画像品質を維持しながら,好ましくないコンテンツ生成を著しく削減し,公的な領域におけるAIの倫理的展開に寄与することが示された。
論文参考訳（メタデータ） (2024-07-17T05:21:41Z)
Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models [58.74606272936636]
テキスト・ツー・イメージ(T2I)拡散モデルは、テキスト・プロンプトと密接に対応した画像を生成する際、例外的な機能を示す。モデルは、暴力やヌードの画像を生成したり、不適切な文脈で公共の人物の無許可の肖像画を作成するなど、悪意ある目的のために利用することができる。悪質な概念や望ましくない概念の発生を防ぐために拡散モデルを変更する概念除去法が提案されている。
論文参考訳（メタデータ） (2024-06-21T03:58:44Z)
Implicit Concept Removal of Diffusion Models [92.55152501707995]
テキスト・ツー・イメージ(T2I)拡散モデルはしばしば、透かしや安全でない画像のような望ましくない概念を不注意に生成する。幾何学駆動制御に基づく新しい概念除去手法であるGeom-Erasingを提案する。
論文参考訳（メタデータ） (2023-10-09T17:13:10Z)
Towards Safe Self-Distillation of Internet-Scale Text-to-Image Diffusion Models [63.20512617502273]
テキストから画像への拡散モデルにおいて,問題のあるコンテンツ生成を防止するため,SDDと呼ばれる手法を提案する。本手法は,画像の全体的な品質を劣化させることなく,生成した画像から有害なコンテンツをはるかに多く除去する。
論文参考訳（メタデータ） (2023-07-12T07:48:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。