論文の概要: Erasing More Than Intended? How Concept Erasure Degrades the Generation of Non-Target Concepts
- arxiv url: http://arxiv.org/abs/2501.09833v2
- Date: Tue, 07 Oct 2025 22:00:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 14:21:17.916428
- Title: Erasing More Than Intended? How Concept Erasure Degrades the Generation of Non-Target Concepts
- Title(参考訳): 意図以上の消去? 概念消去はいかにして非目標概念の生成を劣化させるか
- Authors: Ibtihel Amara, Ahmed Imtiaz Humayun, Ivana Kajic, Zarana Parekh, Natalie Harris, Sarah Young, Chirag Nagpal, Najoung Kim, Junfeng He, Cristina Nader Vasconcelos, Deepak Ramachandran, Golnoosh Farnadi, Katherine Heller, Mohammad Havaei, Negar Rostamzadeh,
- Abstract要約: 評価後のパフォーマンスを評価するための総合的なベンチマークであるEraseBenchを紹介する。
我々は、相互関係の異なるレベルにおける非ターゲット概念に対する概念除去の意図しない結果に焦点をあてる。
以上の結果から, 消去が意図しない非目標概念の抑制につながる概念絡み現象が明らかとなった。
- 参考スコア(独自算出の注目度): 31.232389877218377
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Concept erasure techniques have recently gained significant attention for their potential to remove unwanted concepts from text-to-image models. While these methods often demonstrate promising results in controlled settings, their robustness in real-world applications and suitability for deployment remain uncertain. In this work, we (1) identify a critical gap in evaluating sanitized models, particularly in assessing their performance across diverse concept dimensions, and (2) systematically analyze the failure modes of text-to-image models post-erasure. We focus on the unintended consequences of concept removal on non-target concepts across different levels of interconnected relationships including visually similar, binomial, and semantically related concepts. To address this, we introduce EraseBench, a comprehensive benchmark for evaluating post-erasure performance. EraseBench includes over 100 curated concepts, targeted evaluation prompts, and a robust set of metrics to assess both effectiveness and side effects of erasure. Our findings reveal a phenomenon of concept entanglement, where erasure leads to unintended suppression of non-target concepts, causing spillover degradation that manifests as distortions and a decline in generation quality.
- Abstract(参考訳): 概念消去技術は、テキスト・ツー・イメージ・モデルから不要な概念を除去する可能性について、近年大きな注目を集めている。
これらの手法は、制御された設定において有望な結果を示すことが多いが、現実のアプリケーションにおける堅牢性とデプロイメントの適性は依然として不確実である。
本研究は,(1)衛生モデルの評価における重要なギャップ,特に種々の概念次元における性能評価について,(2)テキスト・画像モデルの障害モードを系統的に解析する。
我々は、視覚的に類似し、二項的、意味的に関連づけられた概念を含む相互関係の異なるレベルにまたがる、非ターゲット概念に対する概念除去の意図しない結果に焦点を当てる。
これを解決するために,評価後のパフォーマンスを評価するための総合的なベンチマークであるEraseBenchを紹介する。
EraseBenchには、100以上のキュレートされた概念、対象とする評価プロンプト、そして消去の有効性と副作用の両方を評価するための堅牢なメトリクスセットが含まれている。
その結果, 消去が意図しない非目標概念の抑制を招き, 歪みや生成品質の低下を招いた概念絡みの現象が明らかとなった。
関連論文リスト
- Erased or Dormant? Rethinking Concept Erasure Through Reversibility [8.454050090398713]
我々は、統一概念編集と消去安定拡散という2つの代表的な概念消去手法を評価する。
消去された概念は、最小限の適応の後、しばしばかなりの視覚的忠実度で再帰することを示す。
本研究は,既存の概念消去アプローチにおける限界を明らかにするものである。
論文 参考訳(メタデータ) (2025-05-22T03:26:46Z) - Fundamental Limits of Perfect Concept Erasure [41.82150352631872]
概念消去は、公平性を達成するために繊細な概念を取り除くことや、特定の概念がモデルの性能に与える影響を解釈することなど、いくつかのアプリケーションで有用である。
従来の概念消去技術は、結果表現の実用性を維持することよりも、概念の堅牢な消去を優先してきた。
提案手法は,GPT-4表現を用いた合成および実世界のデータセットにおいて,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-03-25T22:36:10Z) - Fantastic Targets for Concept Erasure in Diffusion Models and Where To Find Them [21.386640828092524]
概念消去は拡散モデルにおける有害なコンテンツ生成のリスクを軽減するための有望な手法として現れてきた。
本稿では,各望ましくない概念に合わせて最適な目標概念を動的に選択するAdaptive Guided Erasure (AGE)法を提案する。
その結果, AGEは, 有効消去性能を維持しつつ, 無関係な概念を保存し, 最先端の消去手法を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2025-01-31T08:17:23Z) - AdvAnchor: Enhancing Diffusion Model Unlearning with Adversarial Anchors [61.007590285263376]
セキュリティ上の懸念から、研究者たちは微調整によって不適切な概念を学ばざるを得なくなった。
最近の微調整手法は、望ましくない概念を排除し、他の概念を保存することの間のかなりの性能のトレードオフを示す。
本稿では,貿易問題を軽減するために,敵対的アンカーを生成する新しいアプローチであるAdvAnchorを提案する。
論文 参考訳(メタデータ) (2024-12-28T04:44:07Z) - Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z) - Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models [58.74606272936636]
テキスト・ツー・イメージ(T2I)拡散モデルは、テキスト・プロンプトと密接に対応した画像を生成する際、例外的な機能を示す。
モデルは、暴力やヌードの画像を生成したり、不適切な文脈で公共の人物の無許可の肖像画を作成するなど、悪意ある目的のために利用することができる。
悪質な概念や望ましくない概念の発生を防ぐために拡散モデルを変更する概念除去法が提案されている。
論文 参考訳(メタデータ) (2024-06-21T03:58:44Z) - ConceptPrune: Concept Editing in Diffusion Models via Skilled Neuron Pruning [10.201633236997104]
大規模テキスト・画像拡散モデルでは、印象的な画像生成能力が示されている。
提案するConceptPruneでは,まず,望ましくない概念を生成するための事前学習モデル内の重要な領域を同定する。
芸術的スタイル、ヌード性、オブジェクトの消去、ジェンダーのデバイアスなど、さまざまな概念に対する実験は、ターゲットのコンセプトをごくわずかに刈って効率よく消去できることを実証している。
論文 参考訳(メタデータ) (2024-05-29T16:19:37Z) - Unlearning Concepts in Diffusion Model via Concept Domain Correction and Concept Preserving Gradient [20.698305103879232]
我々はtextbfDoCo (textbfDomaintextbfCorrection) という新しい概念領域補正フレームワークを提案する。
本手法は, 対象概念の包括的未学習を保証し, 先進的学習を通して, センシティブな概念とアンカーの概念の出力領域を整合させることにより, 対象概念の包括的未学習を確実にする。
また、矛盾する勾配成分を緩和し、特定の概念を学習しながらモデルの実用性を維持するための概念保存的勾配手術手法も導入する。
論文 参考訳(メタデータ) (2024-05-24T07:47:36Z) - Infusion: Preventing Customized Text-to-Image Diffusion from Overfitting [51.606819347636076]
本研究では, 概念知識を損なう概念非依存オーバーフィッティングと, 限られたモダリティのカスタマイズに限定した概念特化オーバーフィッティングを分析した。
Infusionは、ターゲット概念の学習を、限られた訓練モダリティによって制限されるのを避けることができるT2Iカスタマイズ手法である。
論文 参考訳(メタデータ) (2024-04-22T09:16:25Z) - Separable Multi-Concept Erasure from Diffusion Models [52.51972530398691]
大規模拡散モデルから安全でない概念を排除するために,分離可能なマルチコンセプト消去器(SepME)を提案する。
後者は最適化可能なモデルウェイトを分離し、各ウェイトインクリメントは特定の概念の消去に対応する。
広範囲にわたる実験は, 概念の排除, モデル性能の保存, 各種概念の消去・回復における柔軟性の確保に, アプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-02-03T11:10:57Z) - Implicit Concept Removal of Diffusion Models [92.55152501707995]
テキスト・ツー・イメージ(T2I)拡散モデルはしばしば、透かしや安全でない画像のような望ましくない概念を不注意に生成する。
幾何学駆動制御に基づく新しい概念除去手法であるGeom-Erasingを提案する。
論文 参考訳(メタデータ) (2023-10-09T17:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。