論文の概要: Editing Implicit Assumptions in Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2303.08084v2
- Date: Fri, 25 Aug 2023 16:18:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 17:53:49.598596
- Title: Editing Implicit Assumptions in Text-to-Image Diffusion Models
- Title(参考訳): テキスト・画像拡散モデルにおける帰属推定の編集
- Authors: Hadas Orgad, Bahjat Kawar, Yonatan Belinkov
- Abstract要約: テキストから画像への拡散モデルは、画像を生成するときに世界について暗黙の仮定をすることが多い。
本研究では,事前学習した拡散モデルにおいて,与えられた暗黙の仮定を編集することを目的とする。
モデルパラメータの2.2%を1秒以下で変更するため,本手法は極めて効率的である。
- 参考スコア(独自算出の注目度): 48.542005079915896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image diffusion models often make implicit assumptions about the
world when generating images. While some assumptions are useful (e.g., the sky
is blue), they can also be outdated, incorrect, or reflective of social biases
present in the training data. Thus, there is a need to control these
assumptions without requiring explicit user input or costly re-training. In
this work, we aim to edit a given implicit assumption in a pre-trained
diffusion model. Our Text-to-Image Model Editing method, TIME for short,
receives a pair of inputs: a "source" under-specified prompt for which the
model makes an implicit assumption (e.g., "a pack of roses"), and a
"destination" prompt that describes the same setting, but with a specified
desired attribute (e.g., "a pack of blue roses"). TIME then updates the model's
cross-attention layers, as these layers assign visual meaning to textual
tokens. We edit the projection matrices in these layers such that the source
prompt is projected close to the destination prompt. Our method is highly
efficient, as it modifies a mere 2.2% of the model's parameters in under one
second. To evaluate model editing approaches, we introduce TIMED (TIME
Dataset), containing 147 source and destination prompt pairs from various
domains. Our experiments (using Stable Diffusion) show that TIME is successful
in model editing, generalizes well for related prompts unseen during editing,
and imposes minimal effect on unrelated generations.
- Abstract(参考訳): テキストから画像への拡散モデルは、しばしば画像を生成するときに世界の暗黙の仮定を作る。
いくつかの仮定は有用(例えば空は青)であるが、トレーニングデータに存在する社会的バイアスを時代遅れ、不正確な、あるいは反映することもできる。
したがって、明示的なユーザ入力やコストのかかる再トレーニングを必要とせずに、これらの仮定を制御する必要がある。
本研究では,事前学習した拡散モデルにおいて,与えられた暗黙の仮定を編集することを目的とする。
テキストから画像へのモデル編集方法であるtime for shortは、2つの入力を受け取る: モデルが暗黙の仮定(例えば「バラのパック」)を行う「ソース」未特定プロンプトと、同じ設定を記述しつつ、指定された所望の属性(例えば「青いバラのパック」)を持つ「運命」プロンプト。
timeはモデルのクロスアテンションレイヤを更新し、これらのレイヤはテキストトークンに視覚的な意味を割り当てる。
ソースプロンプトが宛先プロンプトの近くに投影されるように,これらのレイヤ内のプロジェクション行列を編集する。
本手法は,モデルパラメータの2.2%を1秒未満で修正できるため,非常に効率的である。
モデル編集手法を評価するために、様々なドメインから147個のソースと宛先プロンプトペアを含むtimed(time dataset)を導入する。
我々の実験(安定拡散を用いた)では、TIMEはモデル編集に成功し、編集中に見えないプロンプトを一般化し、関係のない世代に最小限の効果を与える。
関連論文リスト
- DreamDistribution: Prompt Distribution Learning for Text-to-Image
Diffusion Models [53.17454737232668]
本稿では,事前学習したT2I拡散モデルを用いて,ソフトプロンプトの集合を学習する解を提案する。
これらのプロンプトは、テキストガイドによる編集機能と、複数のディストリビューション間の変動と混合を制御する柔軟性を提供する。
また,テキスト・トゥ・3Dなどの他のタスクに対して,学習したプロンプト分布の適応性を示す。
論文 参考訳(メタデータ) (2023-12-21T12:11:00Z) - Localizing and Editing Knowledge in Text-to-Image Generative Models [62.02776252311559]
異なる属性に関する知識は、独立したコンポーネントにローカライズされず、代わりに条件付きUNetのコンポーネントセットに分散される。
テキスト・ツー・イメージ・モデルの概念を効果的に編集できる高速でデータフリーなモデル編集手法Diff-QuickFixを提案する。
論文 参考訳(メタデータ) (2023-10-20T17:31:12Z) - Reverse Stable Diffusion: What prompt was used to generate this image? [73.10116197883303]
本研究では, 生成拡散モデルにより生成された画像に対して, 迅速な埋め込みを予測できる課題について検討する。
本稿では,複数ラベルの語彙分類を目的とする共同学習フレームワークを提案する。
我々はDiffusionDBデータセットの実験を行い、安定拡散によって生成された画像からテキストプロンプトを予測する。
論文 参考訳(メタデータ) (2023-08-02T23:39:29Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - If at First You Don't Succeed, Try, Try Again: Faithful Diffusion-based
Text-to-Image Generation by Selection [53.320946030761796]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、テキスト・プロンプトへの忠実さを欠く可能性がある。
大規模なT2I拡散モデルは通常想定されるよりも忠実であり、複雑なプロンプトに忠実な画像を生成することができることを示す。
本稿では,テキストプロンプトの候補画像を生成するパイプラインを導入し,自動スコアリングシステムにより最適な画像を選択する。
論文 参考訳(メタデータ) (2023-05-22T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。