論文の概要: Implicit Priors Editing in Stable Diffusion via Targeted Token Adjustment
- arxiv url: http://arxiv.org/abs/2412.03400v1
- Date: Wed, 04 Dec 2024 15:31:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:08:02.546470
- Title: Implicit Priors Editing in Stable Diffusion via Targeted Token Adjustment
- Title(参考訳): Implicit Priors Editing in Staable Diffusion via Targeted Token Adjustment (特集 情報ネットワーク)
- Authors: Feng He, Chao Zhang, Zhixue Zhao,
- Abstract要約: テキスト・ツー・イメージ・モデルにおいて,暗黙の仮定や事前を効率的に調整する手法であるEmbedit(Embedit)を提案する。
エンコーダの最後に隠された状態を最適化するために、ターゲットオブジェクト(rose)のワードトークン埋め込み(WTE)のみを埋め込む。
提案手法は,XL の安定拡散 1.4 と 2048 の 768 個のパラメータを 1 つの編集で修正した。
- 参考スコア(独自算出の注目度): 8.231727133072866
- License:
- Abstract: Implicit assumptions and priors are often necessary in text-to-image generation tasks, especially when textual prompts lack sufficient context. However, these assumptions can sometimes reflect outdated concepts, inaccuracies, or societal bias embedded in the training data. We present Embedding-only Editing (Embedit), a method designed to efficiently adjust implict assumptions and priors in the model without affecting its interpretation of unrelated objects or overall performance. Given a "source" prompt (e.g., "rose") that elicits an implicit assumption (e.g., rose is red) and a "destination" prompt that specifies the desired attribute (e.g., "blue rose"), Embedit fine-tunes only the word token embedding (WTE) of the target object ("rose") to optimize the last hidden state of text encoder in Stable Diffusion, a SOTA text-to-image model. This targeted adjustment prevents unintended effects on other objects in the model's knowledge base, as the WTEs for unrelated objects and the model weights remain unchanged. Consequently, when a prompt does not contain the edited object, all representations, and the model outputs are identical to those of the original, unedited model. Our method is highly efficient, modifying only 768 parameters for Stable Diffusion 1.4 and 2048 for XL in a single edit, matching the WTE dimension of each respective model. This minimal scope, combined with rapid execution, makes Embedit highly practical for real-world applications. Additionally, changes are easily reversible by restoring the original WTE layers. Our experimental results demonstrate that Embedit consistently outperforms previous methods across various models, tasks, and editing scenarios (both single and sequential multiple edits), achieving at least a 6.01% improvement (from 87.17% to 93.18%).
- Abstract(参考訳): 特にテキストプロンプトが十分なコンテキストを欠いている場合、テキスト・ツー・イメージ生成タスクでは、暗黙の仮定と事前がしばしば必要となる。
しかし、これらの仮定は時代遅れの概念、不正確さ、あるいはトレーニングデータに埋め込まれた社会的バイアスを反映することがある。
本研究では,非関係なオブジェクトの解釈や全体的なパフォーマンスに影響を与えることなく,モデル内の暗黙の仮定や事前を効率的に調整する手法であるEmbedit(Embedit)を提案する。
暗黙的な仮定(eg, rose is red)を導く"source"プロンプト(eg, rose is red)と、所望の属性(eg, "blue rose")を指定する"detination"プロンプト(eg, "blue rose")を与えられた場合、ターゲットオブジェクト(rose)のトークン埋め込み(WTE)のみを埋め込み、SOTAテキスト-イメージモデルであるStable Diffusionにおけるテキストエンコーダの最後の隠れ状態の最適化を行う。
この目標調整は、無関係なオブジェクトとモデルの重みが変わらないため、モデルの知識ベースにある他のオブジェクトに対する意図しない影響を防ぐ。
従って、プロンプトが編集対象を含まない場合、すべての表現とモデル出力は、元の未編集モデルのものと同一である。
提案手法は,XL の安定拡散 1.4 と 2048 の 768 個のパラメータのみを1 つの編集で修正し,各モデルの WTE 次元と一致させる。
この最小限のスコープと迅速な実行が組み合わさって、Embeditは現実世界のアプリケーションに非常に実用的である。
さらに、元のWTEレイヤを復元することで、変更を容易に可逆的にすることができる。
実験の結果, Embedit は様々なモデル, タスク, 編集シナリオにおいて, 従来手法より一貫して優れており, 少なくとも6.01%の改善(87.17%から93.18%)が達成されている。
関連論文リスト
- Learning Where to Edit Vision Transformers [27.038720045544867]
コンピュータビジョンにおける視覚変換器(ViT)の編集のための位置情報編集手法を提案する。
我々はまず、CutMix拡張データ上でハイパーネットワークをメタラーニングすることで、位置から編集までの課題に対処する。
提案手法を検証するため, サブポピュレーションシフトを導入した編集ベンチマークを構築した。
論文 参考訳(メタデータ) (2024-11-04T10:17:40Z) - Localizing and Editing Knowledge in Text-to-Image Generative Models [62.02776252311559]
異なる属性に関する知識は、独立したコンポーネントにローカライズされず、代わりに条件付きUNetのコンポーネントセットに分散される。
テキスト・ツー・イメージ・モデルの概念を効果的に編集できる高速でデータフリーなモデル編集手法Diff-QuickFixを提案する。
論文 参考訳(メタデータ) (2023-10-20T17:31:12Z) - Forgedit: Text Guided Image Editing via Learning and Forgetting [17.26772361532044]
我々は Forgedit という新しいテキスト誘導画像編集手法を設計する。
まず,30秒で元の画像を再構成できる視覚言語共同最適化フレームワークを提案する。
次に,拡散モデルのテキスト埋め込み空間におけるベクトル投影機構を提案する。
論文 参考訳(メタデータ) (2023-09-19T12:05:26Z) - Unified Concept Editing in Diffusion Models [53.30378722979958]
一つのアプローチで全ての問題に取り組む方法を提案する。
本手法,Unified Concept Editing (UCE) は,クローズドフォーム・ソリューションを用いて学習せずにモデルを編集する。
テキスト・ツー・イメージ・プロジェクションを編集することで、拡張性のある同時デバイアス、スタイル消去、コンテンツモデレーションを実証する。
論文 参考訳(メタデータ) (2023-08-25T17:59:59Z) - Editing Implicit Assumptions in Text-to-Image Diffusion Models [48.542005079915896]
テキストから画像への拡散モデルは、画像を生成するときに世界について暗黙の仮定をすることが多い。
本研究では,事前学習した拡散モデルにおいて,与えられた暗黙の仮定を編集することを目的とする。
モデルパラメータの2.2%を1秒以下で変更するため,本手法は極めて効率的である。
論文 参考訳(メタデータ) (2023-03-14T17:14:21Z) - Aging with GRACE: Lifelong Model Editing with Discrete Key-Value
Adaptors [53.819805242367345]
本稿では,展開モデルのストリーミングエラーにスポットフィックスを実装した生涯モデル編集手法であるGRACEを提案する。
GRACEはトレーニング済みモデルの潜在空間に新しいマッピングを記述し、モデルの重みを変更することなく、個別にローカルな編集のコードブックを作成する。
T5,BERT,GPTモデルを用いた実験では,非表示入力に一般化しつつ,編集および保持におけるGRACEの最先端性能を示す。
論文 参考訳(メタデータ) (2022-11-20T17:18:22Z) - Null-text Inversion for Editing Real Images using Guided Diffusion
Models [44.27570654402436]
精度の高い逆変換手法を導入し、直感的なテキストベースの画像修正を容易にする。
我々のNull-textインバージョンは、公開されている安定拡散モデルに基づいて、様々な画像に対して広範囲に評価し、迅速な編集を行う。
論文 参考訳(メタデータ) (2022-11-17T18:58:14Z) - Improving Factual Consistency in Summarization with Compression-Based
Post-Editing [146.24839415743358]
この問題に対処するためのモデルに依存しない方法は、生成された要約を後編集することであることを示す。
本稿では,文圧縮データを用いて後編集モデルを訓練し,特別なトークンでマークされた外在的エンティティエラーを要約する手法を提案する。
我々は,このモデルがROUGEを維持しながら事実整合性を向上し,XSum上でのエンティティ精度を最大30%向上し,他のポストエディタ上でも適用可能であることを示す。
論文 参考訳(メタデータ) (2022-11-11T13:35:38Z) - SITA: Single Image Test-time Adaptation [48.789568233682296]
テスト時間適応(TTA)では、あるソースデータに基づいてトレーニングされたモデルを考えると、異なるディストリビューションからテストインスタンスに対してより良い予測を行うように適応することが目標である。
我々は、TTAをSITA(Single Image Test-time Adaptation)と呼ぶより実践的な環境で考える。
ここでは、各予測を行う場合、モデルはインスタンスのバッチではなく、与えられた単一のテストインスタンスにのみアクセスすることができる。
本稿では,前進保存伝播のみを必要とするSITA設定のための新しいアプローチAugBNを提案する。
論文 参考訳(メタデータ) (2021-12-04T15:01:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。