論文の概要: A Single Neuron Works: Precise Concept Erasure in Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2509.21008v1
- Date: Thu, 25 Sep 2025 11:10:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.857516
- Title: A Single Neuron Works: Precise Concept Erasure in Text-to-Image Diffusion Models
- Title(参考訳): 単一ニューロンの研究 : テキスト・画像拡散モデルにおける精密概念消去
- Authors: Qinqin He, Jiaqi Weng, Jialing Tao, Hui Xue,
- Abstract要約: 単一ニューロンに基づく概念消去は、単一のニューロンのみを操作することによって有害なコンテンツ生成を防止する。
SNCEは,非ターゲット概念に対するモデルの生成能力を保ちながら,目標概念の消去において最先端の結果が得られることを示す。
- 参考スコア(独自算出の注目度): 6.545490786522184
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Text-to-image models exhibit remarkable capabilities in image generation. However, they also pose safety risks of generating harmful content. A key challenge of existing concept erasure methods is the precise removal of target concepts while minimizing degradation of image quality. In this paper, we propose Single Neuron-based Concept Erasure (SNCE), a novel approach that can precisely prevent harmful content generation by manipulating only a single neuron. Specifically, we train a Sparse Autoencoder (SAE) to map text embeddings into a sparse, disentangled latent space, where individual neurons align tightly with atomic semantic concepts. To accurately locate neurons responsible for harmful concepts, we design a novel neuron identification method based on the modulated frequency scoring of activation patterns. By suppressing activations of the harmful concept-specific neuron, SNCE achieves surgical precision in concept erasure with minimal disruption to image quality. Experiments on various benchmarks demonstrate that SNCE achieves state-of-the-art results in target concept erasure, while preserving the model's generation capabilities for non-target concepts. Additionally, our method exhibits strong robustness against adversarial attacks, significantly outperforming existing methods.
- Abstract(参考訳): テキスト・ツー・イメージモデルは、画像生成において顕著な能力を示す。
しかし、有害なコンテンツを発生させる危険もある。
既存の概念消去手法の重要な課題は、画像品質の劣化を最小限に抑えつつ、ターゲット概念を正確に除去することである。
本稿では,単一ニューロンのみを操作することで,有害なコンテンツ生成を正確に防止できる新しいアプローチである,単一ニューロンを用いた概念消去(SNCE)を提案する。
具体的には、スパースオートエンコーダ(SAE)をトレーニングし、テキスト埋め込みを、個々のニューロンが原子セマンティックな概念と密に整合する、スパースで非絡み合ったラテント空間にマッピングする。
有害な概念に責任のあるニューロンを正確に特定するために,活性化パターンの変調周波数スコアリングに基づく新しいニューロン識別法を設計する。
SNCEは、有害な概念特異的ニューロンの活性化を抑制することにより、画像品質を最小限に破壊することなく、概念消去における外科的精度を達成する。
様々なベンチマーク実験により、SNCEはターゲット概念の消去において最先端の結果を達成し、非ターゲット概念に対するモデルの生成能力を保っていることが示された。
さらに,本手法は敵攻撃に対する強い強靭性を示し,既存手法よりも優れていた。
関連論文リスト
- Concept Corrector: Erase concepts on the fly for text-to-image diffusion models [38.99973711993937]
概念消去は、モデルが生成できる望ましくない概念を消去することを目的としている。
本研究では,特定のタイミングで予測される最終生成画像から得られる視覚的特徴に基づいて,対象概念をチェックする概念コレクタを提案する。
パイプライン全体において、我々の手法はモデルパラメータを変更せず、特定のターゲット概念とそれに対応する代替コンテンツのみを必要とする。
論文 参考訳(メタデータ) (2025-02-22T21:53:43Z) - Concept Steerers: Leveraging K-Sparse Autoencoders for Test-Time Controllable Generations [10.86252546314626]
テキスト・ツー・イメージ生成モデルは、敵対的な攻撃をしがちであり、不安全で非倫理的なコンテンツを不注意に生成する。
我々は,k-スパースオートエンコーダ(k-SAE)を活用して,効率的な,解釈可能な概念操作を実現する新しいフレームワークを提案する。
提案手法は, 安全でない概念除去において$mathbf20.01%$の改善を実現し, スタイル操作に有効であり, 現在の最先端技術よりも$mathbfsim5$x高速である。
論文 参考訳(メタデータ) (2025-01-31T11:52:47Z) - Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z) - ConceptPrune: Concept Editing in Diffusion Models via Skilled Neuron Pruning [10.201633236997104]
大規模テキスト・画像拡散モデルでは、印象的な画像生成能力が示されている。
提案するConceptPruneでは,まず,望ましくない概念を生成するための事前学習モデル内の重要な領域を同定する。
芸術的スタイル、ヌード性、オブジェクトの消去、ジェンダーのデバイアスなど、さまざまな概念に対する実験は、ターゲットのコンセプトをごくわずかに刈って効率よく消去できることを実証している。
論文 参考訳(メタデータ) (2024-05-29T16:19:37Z) - Pruning for Robust Concept Erasing in Diffusion Models [27.67237515704348]
概念消去のための新しいプルーニングベースの戦略を導入する。
本手法は, 除去対象概念に関連する重要なパラメータを選択的に抽出し, 概念関連ニューロンの感度を低下させる。
実験の結果, 逆入力に抵抗するモデルの能力は著しく向上した。
論文 参考訳(メタデータ) (2024-05-26T11:42:20Z) - Receler: Reliable Concept Erasing of Text-to-Image Diffusion Models via Lightweight Erasers [24.64639078273091]
テキストから画像への拡散モデルにおける概念消去は、対象概念に関連する画像の生成から事前学習された拡散モデルを無効にすることを目的としている。
軽量エローザ(レセラー)による信頼性概念消去の提案
論文 参考訳(メタデータ) (2023-11-29T15:19:49Z) - Implicit Concept Removal of Diffusion Models [92.55152501707995]
テキスト・ツー・イメージ(T2I)拡散モデルはしばしば、透かしや安全でない画像のような望ましくない概念を不注意に生成する。
幾何学駆動制御に基づく新しい概念除去手法であるGeom-Erasingを提案する。
論文 参考訳(メタデータ) (2023-10-09T17:13:10Z) - Fooling the primate brain with minimal, targeted image manipulation [67.78919304747498]
本稿では、行動に反映される神経活動と知覚の両方の変化をもたらす、最小限の標的画像摂動を生成するための一連の手法を提案する。
我々の研究は、敵対的攻撃、すなわち最小限のターゲットノイズによる画像の操作で同じ目標を共有し、ANNモデルに画像の誤分類を誘導する。
論文 参考訳(メタデータ) (2020-11-11T08:30:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。