Fugu-MT 論文翻訳(概要): Robust Concept Erasure Using Task Vectors

論文の概要: Robust Concept Erasure Using Task Vectors

arxiv url: http://arxiv.org/abs/2404.03631v1
Date: Thu, 4 Apr 2024 17:52:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-05 13:42:53.613010
Title: Robust Concept Erasure Using Task Vectors
Title（参考訳）: タスクベクトルを用いたロバスト概念消去
Authors: Minh Pham, Kelly O. Marshall, Chinmay Hegde, Niv Cohen,
Abstract要約: 我々は,ユーザのプロンプトの消去を条件にするのではなく,テキスト・ツー・イメージモデルから概念を無条件に消去することに注力する。本稿では,モデル入力空間内に単語埋め込みの大規模な集合を見出すDiverse Inversionという手法を提案する。セットの多様性を奨励することで、予想外のプロンプトに対する評価がより堅牢になることが分かりました。
参考スコア（独自算出の注目度）: 26.004086624621255
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the rapid growth of text-to-image models, a variety of techniques have been suggested to prevent undesirable image generations. Yet, these methods often only protect against specific user prompts and have been shown to allow unsafe generations with other inputs. Here we focus on unconditionally erasing a concept from a text-to-image model rather than conditioning the erasure on the user's prompt. We first show that compared to input-dependent erasure methods, concept erasure that uses Task Vectors (TV) is more robust to unexpected user inputs, not seen during training. However, TV-based erasure can also affect the core performance of the edited model, particularly when the required edit strength is unknown. To this end, we propose a method called Diverse Inversion, which we use to estimate the required strength of the TV edit. Diverse Inversion finds within the model input space a large set of word embeddings, each of which induces the generation of the target concept. We find that encouraging diversity in the set makes our estimation more robust to unexpected prompts. Finally, we show that Diverse Inversion enables us to apply a TV edit only to a subset of the model weights, enhancing the erasure capabilities while better maintaining the core functionality of the model.
Abstract（参考訳）: テキスト・ツー・イメージ・モデルの急速な成長に伴い、望ましくない画像生成を防止するために様々な手法が提案されている。しかし、これらの方法はしばしば特定のユーザープロンプトに対してのみ保護され、他の入力で安全でない世代を許可することが示されている。ここでは、ユーザのプロンプトの消去を条件にするのではなく、テキスト・ツー・イメージモデルから概念を無条件に消去することに焦点を当てる。まず, 入力依存消去法と比較して, タスクベクトル(TV)を用いた概念消去は, トレーニング中ではなく, 予期せぬユーザ入力に対してより堅牢であることを示す。しかし、テレビベースの消去は、特に必要な編集強度が不明な場合には、編集モデルのコアパフォーマンスにも影響を及ぼす可能性がある。そこで我々は,テレビ編集に必要な強度を推定するために,ディバース・インバージョン(Diverse Inversion)という手法を提案する。ディヴァース・インバージョンは、モデル入力空間内に大量の単語の埋め込みを見つけ、それぞれがターゲット概念の生成を誘導する。セットの多様性を奨励することで、予想外のプロンプトに対する評価がより堅牢になることが分かりました。最後に、Diverse Inversionにより、モデルの重みのサブセットにのみTV編集を適用することができ、モデルのコア機能を維持しつつ、消去能力を向上できることを示す。

関連論文リスト

Concept Pinpoint Eraser for Text-to-image Diffusion Models via Residual Attention Gate [10.996274286143244]
拡散モデルにおける対象概念を最小限の歪みで保存しながら削除することを目的として,概念消去について検討した。本研究では, 対象概念を選択的に消去(あるいはカット)するEmphnonlinear Residual Attention Gates (ResAGs) を追加することで, 概念ピンポイント消去 (Concept Pinpoint Eraser, CPE) と呼ばれる新しいフレームワークを提案する。 CPEは、様々な概念を維持しながら、攻撃プロンプトに対する堅牢さで目標概念を削除し、先行技術より優れています。
論文参考訳（メタデータ） (2025-06-28T08:17:19Z)
Sparse Autoencoder as a Zero-Shot Classifier for Concept Erasing in Text-to-Image Diffusion Models [24.15603438969762]
Interpret then Deactivate (ItD) は、T2I拡散モデルにおける正確な概念除去を可能にする新しいフレームワークである。 ItDはスパースオートエンコーダを使用して、各概念を複数の機能の組み合わせとして解釈する。さらなるトレーニングを必要とせずに、簡単に複数の概念を消去できる。
論文参考訳（メタデータ） (2025-03-12T14:46:40Z)
Concept Steerers: Leveraging K-Sparse Autoencoders for Controllable Generations [10.86252546314626]
テキスト・ツー・イメージ生成モデルは、敵対的な攻撃をしがちであり、不安全で非倫理的なコンテンツを不注意に生成する。我々は,k-スパースオートエンコーダ(k-SAE)を活用して,効率的な,解釈可能な概念操作を実現する新しいフレームワークを提案する。提案手法は, 安全でない概念除去において$mathbf20.01%$の改善を実現し, スタイル操作に有効であり, 現在の最先端技術よりも$mathbfsim5$x高速である。
論文参考訳（メタデータ） (2025-01-31T11:52:47Z)
DuMo: Dual Encoder Modulation Network for Precise Concept Erasure [75.05165577219425]
非ターゲット概念に対する最小限の障害を伴う不適切なターゲット概念の正確な消去を実現するDuMo(Dual Encoder Modulation Network)を提案する。提案手法は, 明示的コンテンツ消去, カートゥーン概念除去, アーティスティックスタイル消去における最先端性能を実現し, 代替手法よりも明らかに優れている。
論文参考訳（メタデータ） (2025-01-02T07:47:34Z)
SteerDiff: Steering towards Safe Text-to-Image Diffusion Models [5.781285400461636]
テキスト・ツー・イメージ(T2I)拡散モデルは不適切なコンテンツを生成するために誤用することができる。本稿では,ユーザ入力と拡散モデルの間の仲介として機能する軽量適応モジュールであるSteerDiffを紹介する。提案手法の有効性を評価するために,様々な概念の未学習タスクに対して広範な実験を行う。
論文参考訳（メタデータ） (2024-10-03T17:34:55Z)
Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文参考訳（メタデータ） (2024-07-17T08:04:28Z)
ConceptPrune: Concept Editing in Diffusion Models via Skilled Neuron Pruning [10.201633236997104]
大規模テキスト・画像拡散モデルでは、印象的な画像生成能力が示されている。提案するConceptPruneでは,まず,望ましくない概念を生成するための事前学習モデル内の重要な領域を同定する。芸術的スタイル、ヌード性、オブジェクトの消去、ジェンダーのデバイアスなど、さまざまな概念に対する実験は、ターゲットのコンセプトをごくわずかに刈って効率よく消去できることを実証している。
論文参考訳（メタデータ） (2024-05-29T16:19:37Z)
Erasing Concepts from Text-to-Image Diffusion Models with Few-shot Unlearning [0.0]
本稿では,数発のアンラーニングを用いてテキストエンコーダを更新する新しい概念消去手法を提案する。提案手法は10秒以内に概念を消去し,概念の消去をこれまで以上に容易に行えるようにする。
論文参考訳（メタデータ） (2024-05-12T14:01:05Z)
Multi-Concept T2I-Zero: Tweaking Only The Text Embeddings and Nothing Else [75.6806649860538]
我々は,事前学習した拡散モデルを用いた自然多概念生成という,より野心的な目標を考える。マルチコンセプト生成性能を著しく低下させる概念支配と非局所的貢献を観察する。我々は、より現実的なマルチコンセプトのテキスト・ツー・イメージ生成のために、テキストの埋め込みを微調整することで、上記の問題を克服する最小の低コストのソリューションを設計する。
論文参考訳（メタデータ） (2023-10-11T12:05:44Z)
Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。次に、新しい2段階のカスタマイズプロセスを示す。
論文参考訳（メタデータ） (2023-05-25T17:59:04Z)
TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文参考訳（メタデータ） (2023-05-23T15:44:56Z)
Forget-Me-Not: Learning to Forget in Text-to-Image Diffusion Models [79.50701155336198]
textbfForget-Me-Notは、適切に設定されたテキスト・ツー・イメージモデルから、指定されたID、オブジェクト、スタイルを30秒で安全に削除するように設計されている。我々は,Forget-Me-Notが,モデルの性能を他の概念に保ちながら,ターゲットとなる概念を効果的に排除できることを実証した。また、Stable Diffusionの軽量モデルパッチとして適応することができ、コンセプト操作と便利な配布を可能にしている。
論文参考訳（メタデータ） (2023-03-30T17:58:11Z)
Designing an Encoder for Fast Personalization of Text-to-Image Models [57.62449900121022]
テキスト・ツー・イメージ・パーソナライズのためのエンコーダに基づくドメインチューニング手法を提案する。まず、特定のドメインからターゲット概念の1つのイメージを入力として取り込むエンコーダです。第二に、追加概念を効果的に取り入れる方法を学ぶためのテキスト・ツー・イメージ・モデルのための正規化された重み付けオフセットのセット。
論文参考訳（メタデータ） (2023-02-23T18:46:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。