論文の概要: Do Concept Replacement Techniques Really Erase Unacceptable Concepts?
- arxiv url: http://arxiv.org/abs/2506.08991v1
- Date: Tue, 10 Jun 2025 17:02:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.960469
- Title: Do Concept Replacement Techniques Really Erase Unacceptable Concepts?
- Title(参考訳): 概念代替技術は受け入れ難い概念を本当に排除するのか?
- Authors: Anudeep Das, Gurjot Singh, Prach Chantasantitam, N. Asokan,
- Abstract要約: 概念置換技術(CRT)は、しばしばモデルから受け入れられない概念を「取り除く」ことで、この問題に対処することを目的としている。
優れたCRTは、許容できない概念を置き換える一方で、生成モデルへの入力で指定された他の概念を保存すべきである、と我々は主張する。
本稿では,有効性と忠実性の両方を達成するために,ターゲット画像編集手法を提案する。
- 参考スコア(独自算出の注目度): 9.816422194344398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative models, particularly diffusion-based text-to-image (T2I) models, have demonstrated astounding success. However, aligning them to avoid generating content with unacceptable concepts (e.g., offensive or copyrighted content, or celebrity likenesses) remains a significant challenge. Concept replacement techniques (CRTs) aim to address this challenge, often by trying to "erase" unacceptable concepts from models. Recently, model providers have started offering image editing services which accept an image and a text prompt as input, to produce an image altered as specified by the prompt. These are known as image-to-image (I2I) models. In this paper, we first use an I2I model to empirically demonstrate that today's state-of-the-art CRTs do not in fact erase unacceptable concepts. Existing CRTs are thus likely to be ineffective in emerging I2I scenarios, despite their proven ability to remove unwanted concepts in T2I pipelines, highlighting the need to understand this discrepancy between T2I and I2I settings. Next, we argue that a good CRT, while replacing unacceptable concepts, should preserve other concepts specified in the inputs to generative models. We call this fidelity. Prior work on CRTs have neglected fidelity in the case of unacceptable concepts. Finally, we propose the use of targeted image-editing techniques to achieve both effectiveness and fidelity. We present such a technique, AntiMirror, and demonstrate its viability.
- Abstract(参考訳): 生成モデル、特に拡散ベースのテキスト・ツー・イメージ(T2I)モデルは驚くべき成功を収めている。
しかし、容認できない概念(たとえば、攻撃的または著作権のあるコンテンツ、または有名人のような)でコンテンツを生成するのを避けるためにそれらを調整することは、依然として大きな課題である。
概念置換技術(CRT)は、しばしばモデルから受け入れられない概念を「取り除く」ことで、この問題に対処することを目的としている。
近年、モデルプロバイダは、画像とテキストプロンプトを入力として受け入れる画像編集サービスを提供し、プロンプトが指定した画像を生成する。
これらはイメージ・ツー・イメージ(I2I)モデルとして知られている。
本稿では、まずI2Iモデルを用いて、現在の最先端のCRTが実際に受け入れられない概念を消去していないことを実証する。
既存のCRTは、T2Iパイプラインで望ましくない概念を削除できることが証明されたにもかかわらず、新興I2Iシナリオでは効果がない可能性が高い。
次に、許容できない概念を置き換えつつ、優れたCRTは、生成モデルへの入力で指定された他の概念を保存するべきであると論じる。
私たちはこれを忠実(fidelity)と呼ぶ。
CRTに関する以前の研究は、受け入れがたい概念の場合、忠実さを無視していた。
最後に,対象画像編集技術を用いて,有効性と忠実性を両立させる手法を提案する。
このような手法であるAntiMirrorを提案し、その可能性を実証する。
関連論文リスト
- Replace in Translation: Boost Concept Alignment in Counterfactual Text-to-Image [53.09546752700792]
我々は,この代替プロセスを明示論理ナラティブ・プロンプト (ELNP) と呼ぶ方法を提案する。
合成画像において,プロンプトに要求される概念を平均的にカバーできる数を計算するための計量を設計する。
大規模な実験と定性比較により、我々の戦略が反実的T2Iの概念の整合性を高めることが示される。
論文 参考訳(メタデータ) (2025-05-20T13:27:52Z) - ACE: Anti-Editing Concept Erasure in Text-to-Image Models [73.00930293474009]
既存の概念消去手法は、削除された概念がプロンプトから生成されるのを防ぐために優れた結果が得られる。
本稿では、生成時にターゲット概念を消去するだけでなく、編集時に除去する反編集概念消去(ACE)手法を提案する。
論文 参考訳(メタデータ) (2025-01-03T04:57:27Z) - EraseAnything: Enabling Concept Erasure in Rectified Flow Transformers [33.195628798316754]
EraseAnythingは、最新のフローベースのT2Iフレームワークにおける概念消去に対処するために特別に開発された最初の方法である。
概念消去を二段階最適化問題として定式化し,LoRAに基づくパラメータチューニングとアテンションマップ正規化器を用いた。
本研究では,意図しない概念の除去が意図せず,無関係な概念のパフォーマンスを損なうことのない自己矛盾型学習戦略を提案する。
論文 参考訳(メタデータ) (2024-12-29T09:42:53Z) - TraSCE: Trajectory Steering for Concept Erasure [16.752023123940674]
テキスト・ツー・イメージ拡散モデルでは,NSFW(No-safe-for-work)画像のような有害なコンテンツを生成することが示されている。
本稿では, 拡散経路を有害な物質の発生から遠ざけるためのTraSCEを提案する。
提案手法は,有害なコンテンツを除去するための様々なベンチマークにおいて,最先端の結果を得る。
論文 参考訳(メタデータ) (2024-12-10T16:45:03Z) - Continuous Concepts Removal in Text-to-image Diffusion Models [27.262721132177845]
著作権を侵害したり、乱暴な主題を描写するコンテンツを作成するためのテキスト・ツー・イメージモデルの可能性について懸念が高まっている。
本稿では,知識蒸留パラダイムを設計したCCRTという新しい手法を提案する。
一連のテキストプロンプトを使用することで、連続的な概念削除プロセス中のテキストイメージのアライメント動作を制限します。
論文 参考訳(メタデータ) (2024-11-30T20:40:10Z) - Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z) - Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models [58.74606272936636]
テキスト・ツー・イメージ(T2I)拡散モデルは、テキスト・プロンプトと密接に対応した画像を生成する際、例外的な機能を示す。
モデルは、暴力やヌードの画像を生成したり、不適切な文脈で公共の人物の無許可の肖像画を作成するなど、悪意ある目的のために利用することができる。
悪質な概念や望ましくない概念の発生を防ぐために拡散モデルを変更する概念除去法が提案されている。
論文 参考訳(メタデータ) (2024-06-21T03:58:44Z) - Espresso: Robust Concept Filtering in Text-to-Image Models [15.136993805135537]
Contrastive Language-Image Pre-Training (CLIP) に基づく最初のロバストな概念フィルタである Espresso を紹介する。
我々は、生成した画像の埋め込みから、受け入れがたい概念と許容できる概念の両方のテキスト埋め込みまでの距離を用いて、受け入れがたい概念を識別する。
これにより、ユーティリティを保ちながら、受け入れがたい概念と許容できる概念のテキスト埋め込みを分離することで、堅牢性を微調整できます。
論文 参考訳(メタデータ) (2024-04-30T03:13:06Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z) - Implicit Concept Removal of Diffusion Models [92.55152501707995]
テキスト・ツー・イメージ(T2I)拡散モデルはしばしば、透かしや安全でない画像のような望ましくない概念を不注意に生成する。
幾何学駆動制御に基づく新しい概念除去手法であるGeom-Erasingを提案する。
論文 参考訳(メタデータ) (2023-10-09T17:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。