論文の概要: On Mechanistic Knowledge Localization in Text-to-Image Generative Models
- arxiv url: http://arxiv.org/abs/2405.01008v2
- Date: Wed, 8 May 2024 01:00:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-09 13:25:23.624075
- Title: On Mechanistic Knowledge Localization in Text-to-Image Generative Models
- Title(参考訳): テキスト・画像生成モデルにおけるメカニスティック・ナレッジ・ローカライゼーションについて
- Authors: Samyadeep Basu, Keivan Rezaei, Priyatham Kattakinda, Ryan Rossi, Cherry Zhao, Vlad Morariu, Varun Manjunatha, Soheil Feizi,
- Abstract要約: 本稿では,テキスト・ツー・イメージモデルにおけるメカニスティック・ローカライゼーションの概念を紹介する。
UNetのクロスアテンション層に介入することで、中間層による出力生成に対する直接的な効果を計測する。
我々は、人気のあるオープンソーステキスト・ツー・イメージモデルにまたがる高速なクローズドフォーム編集手法であるLocoEditを採用している。
- 参考スコア(独自算出の注目度): 44.208804082687294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identifying layers within text-to-image models which control visual attributes can facilitate efficient model editing through closed-form updates. Recent work, leveraging causal tracing show that early Stable-Diffusion variants confine knowledge primarily to the first layer of the CLIP text-encoder, while it diffuses throughout the UNet.Extending this framework, we observe that for recent models (e.g., SD-XL, DeepFloyd), causal tracing fails in pinpointing localized knowledge, highlighting challenges in model editing. To address this issue, we introduce the concept of Mechanistic Localization in text-to-image models, where knowledge about various visual attributes (e.g., "style", "objects", "facts") can be mechanistically localized to a small fraction of layers in the UNet, thus facilitating efficient model editing. We localize knowledge using our method LocoGen which measures the direct effect of intermediate layers to output generation by performing interventions in the cross-attention layers of the UNet. We then employ LocoEdit, a fast closed-form editing method across popular open-source text-to-image models (including the latest SD-XL)and explore the possibilities of neuron-level model editing. Using Mechanistic Localization, our work offers a better view of successes and failures in localization-based text-to-image model editing. Code will be available at https://github.com/samyadeepbasu/LocoGen.
- Abstract(参考訳): 視覚属性を制御するテキスト・ツー・イメージモデル内のレイヤを識別することで、クローズドフォーム更新による効率的なモデル編集が容易になる。
最近の研究は、因果トレースを利用して、初期安定拡散変種は、主にCLIPテキストエンコーダの第一層に知識を限定し、UNet全体に拡散していることを示している。このフレームワークは、最近のモデル(例えば、SD-XL、DeepFloyd)において、因果トレースは局所的な知識の特定に失敗し、モデル編集の課題を強調している。
この問題に対処するために、テキスト・ツー・イメージモデルにおけるメカニスティック・ローカライゼーションの概念を導入し、様々な視覚的属性(例えば、"style", "objects", "facts")に関する知識をUNetの少数のレイヤに機械的にローカライズし、効率的なモデル編集を容易にする。
我々は,UNetのクロスアテンション層に介入することで,中間層が生成する直接効果を計測するLocoGenという手法を用いて,知識をローカライズする。
次に、人気のあるオープンソーステキスト画像モデル(最新のSD-XLを含む)にまたがる高速なクローズドフォーム編集手法であるLocoEditを採用し、ニューロンレベルのモデル編集の可能性を探る。
メカニスティック・ローカライゼーション(Mechanistic Localization, メカニスティック・ローカライゼーション, メカニスティック・ローカライゼーション, メカニスティック・ローカライゼーション, メカニスティック・ローカライゼーション, メカニカル・ローカライゼーション)を用いて, ローカライゼーション・ベースのテキスト・ツー・イメージ・モデル編集における成功と失敗のより良いビューを提供する。
コードはhttps://github.com/samyadeepbasu/LocoGen.comから入手できる。
関連論文リスト
- DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - VASE: Object-Centric Appearance and Shape Manipulation of Real Videos [108.60416277357712]
本研究では,オブジェクトの外観と,特にオブジェクトの精密かつ明示的な構造的変更を実行するために設計された,オブジェクト中心のフレームワークを紹介する。
我々は,事前学習した画像条件拡散モデル上にフレームワークを構築し,時間次元を扱うためのレイヤを統合するとともに,形状制御を実現するためのトレーニング戦略とアーキテクチャ修正を提案する。
我々は,画像駆動映像編集タスクにおいて,最先端技術に類似した性能を示し,新しい形状編集機能を示す手法について検討した。
論文 参考訳(メタデータ) (2024-01-04T18:59:24Z) - Localizing and Editing Knowledge in Text-to-Image Generative Models [62.02776252311559]
異なる属性に関する知識は、独立したコンポーネントにローカライズされず、代わりに条件付きUNetのコンポーネントセットに分散される。
テキスト・ツー・イメージ・モデルの概念を効果的に編集できる高速でデータフリーなモデル編集手法Diff-QuickFixを提案する。
論文 参考訳(メタデータ) (2023-10-20T17:31:12Z) - DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models [66.43179841884098]
本研究では,DiffusionモデルにおけるDragスタイルの操作を可能にする新しい画像編集手法DragonDiffusionを提案する。
提案手法は,オブジェクト移動,オブジェクトのリサイズ,オブジェクトの外観置換,コンテンツドラッグングなど,生成された画像や実際の画像に対する様々な編集モードを実現する。
論文 参考訳(メタデータ) (2023-07-05T16:43:56Z) - DiffUTE: Universal Text Editing Diffusion Model [32.384236053455]
汎用的な自己教師型テキスト編集拡散モデル(DiffUTE)を提案する。
それは、その現実的な外観を維持しながら、ソースイメージ内の単語を別の単語に置き換えたり、修正したりすることを目的としている。
提案手法は印象的な性能を実現し,高忠実度画像の編集を可能にする。
論文 参考訳(メタデータ) (2023-05-18T09:06:01Z) - Does Localization Inform Editing? Surprising Differences in
Causality-Based Localization vs. Knowledge Editing in Language Models [68.03946716358335]
既存の方法と異なる位置にある重みを編集することで、その事実をモデルに格納する方法を変えることができる。
特定のモデルパラメータに事実をローカライズすることで、モデル内の知識を操作する場所がわかると期待しているからです。
我々の結果は、事前訓練された言語モデルがどのように機能するかのより優れた機械的理解が、必ずしも行動の最良の変更方法に関する洞察に結びつくとは限らないことを示唆している。
論文 参考訳(メタデータ) (2023-01-10T21:26:08Z) - SINE: SINgle Image Editing with Text-to-Image Diffusion Models [10.67527134198167]
本研究の目的は、単一画像編集の問題に対処することである。
分類器フリーガイダンスに基づく新しいモデルベースガイダンスを提案する。
スタイルの変更、コンテンツの追加、オブジェクト操作など、有望な編集機能を示す。
論文 参考訳(メタデータ) (2022-12-08T18:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。