Fugu-MT 論文翻訳(概要): Editing Implicit Assumptions in Text-to-Image Diffusion Models

論文の概要: Editing Implicit Assumptions in Text-to-Image Diffusion Models

arxiv url: http://arxiv.org/abs/2303.08084v2
Date: Fri, 25 Aug 2023 16:18:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-28 17:53:49.598596
Title: Editing Implicit Assumptions in Text-to-Image Diffusion Models
Title（参考訳）: テキスト・画像拡散モデルにおける帰属推定の編集
Authors: Hadas Orgad, Bahjat Kawar, Yonatan Belinkov
Abstract要約: テキストから画像への拡散モデルは、画像を生成するときに世界について暗黙の仮定をすることが多い。本研究では,事前学習した拡散モデルにおいて,与えられた暗黙の仮定を編集することを目的とする。モデルパラメータの2.2%を1秒以下で変更するため,本手法は極めて効率的である。
参考スコア（独自算出の注目度）: 48.542005079915896
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-to-image diffusion models often make implicit assumptions about the world when generating images. While some assumptions are useful (e.g., the sky is blue), they can also be outdated, incorrect, or reflective of social biases present in the training data. Thus, there is a need to control these assumptions without requiring explicit user input or costly re-training. In this work, we aim to edit a given implicit assumption in a pre-trained diffusion model. Our Text-to-Image Model Editing method, TIME for short, receives a pair of inputs: a "source" under-specified prompt for which the model makes an implicit assumption (e.g., "a pack of roses"), and a "destination" prompt that describes the same setting, but with a specified desired attribute (e.g., "a pack of blue roses"). TIME then updates the model's cross-attention layers, as these layers assign visual meaning to textual tokens. We edit the projection matrices in these layers such that the source prompt is projected close to the destination prompt. Our method is highly efficient, as it modifies a mere 2.2% of the model's parameters in under one second. To evaluate model editing approaches, we introduce TIMED (TIME Dataset), containing 147 source and destination prompt pairs from various domains. Our experiments (using Stable Diffusion) show that TIME is successful in model editing, generalizes well for related prompts unseen during editing, and imposes minimal effect on unrelated generations.
Abstract（参考訳）: テキストから画像への拡散モデルは、しばしば画像を生成するときに世界の暗黙の仮定を作る。いくつかの仮定は有用(例えば空は青)であるが、トレーニングデータに存在する社会的バイアスを時代遅れ、不正確な、あるいは反映することもできる。したがって、明示的なユーザ入力やコストのかかる再トレーニングを必要とせずに、これらの仮定を制御する必要がある。本研究では,事前学習した拡散モデルにおいて,与えられた暗黙の仮定を編集することを目的とする。テキストから画像へのモデル編集方法であるtime for shortは、2つの入力を受け取る: モデルが暗黙の仮定(例えば「バラのパック」)を行う「ソース」未特定プロンプトと、同じ設定を記述しつつ、指定された所望の属性(例えば「青いバラのパック」)を持つ「運命」プロンプト。 timeはモデルのクロスアテンションレイヤを更新し、これらのレイヤはテキストトークンに視覚的な意味を割り当てる。ソースプロンプトが宛先プロンプトの近くに投影されるように,これらのレイヤ内のプロジェクション行列を編集する。本手法は,モデルパラメータの2.2%を1秒未満で修正できるため,非常に効率的である。モデル編集手法を評価するために、様々なドメインから147個のソースと宛先プロンプトペアを含むtimed(time dataset)を導入する。我々の実験(安定拡散を用いた)では、TIMEはモデル編集に成功し、編集中に見えないプロンプトを一般化し、関係のない世代に最小限の効果を与える。

関連論文リスト

Origin Identification for Text-Guided Image-to-Image Diffusion Models [39.234894330025114]
テキスト誘導画像と画像の拡散モデル(ID$2$)の原点識別を提案する。 ID$2$の直接的な解決策は、クエリと参照イメージの両方から機能を抽出し比較するために、特別なディープ埋め込みモデルをトレーニングすることである。提案したID$2$タスクのこの課題を解決するために,最初のデータセットと理論的に保証されたメソッドをコントリビュートする。
論文参考訳（メタデータ） (2025-01-04T20:34:53Z)
Implicit Priors Editing in Stable Diffusion via Targeted Token Adjustment [8.231727133072866]
テキスト・ツー・イメージ・モデルにおいて,暗黙の仮定や事前を効率的に調整する手法であるEmbedit(Embedit)を提案する。エンコーダの最後に隠された状態を最適化するために、ターゲットオブジェクト(rose)のワードトークン埋め込み(WTE)のみを埋め込む。提案手法は,XL の安定拡散 1.4 と 2048 の 768 個のパラメータを 1 つの編集で修正した。
論文参考訳（メタデータ） (2024-12-04T15:31:30Z)
Diffusion Self-Distillation for Zero-Shot Customized Image Generation [40.11194010431839]
Diffusion Self-Distillationは、テキスト条件のイメージ・ツー・イメージタスクのための独自のデータセットを生成する方法である。まず、画像のグリッドを作成するために、テキスト・ツー・イメージ拡散モデルのコンテキスト内生成機能を利用する。次に、キュレートされたペア化されたデータセットを使用して、テキストからイメージへのモデルに微調整する。
論文参考訳（メタデータ） (2024-11-27T18:58:52Z)
DreamDistribution: Prompt Distribution Learning for Text-to-Image Diffusion Models [53.17454737232668]
本稿では,事前学習したT2I拡散モデルを用いて,ソフトプロンプトの集合を学習する解を提案する。これらのプロンプトは、テキストガイドによる編集機能と、複数のディストリビューション間の変動と混合を制御する柔軟性を提供する。また,テキスト・トゥ・3Dなどの他のタスクに対して,学習したプロンプト分布の適応性を示す。
論文参考訳（メタデータ） (2023-12-21T12:11:00Z)
Localizing and Editing Knowledge in Text-to-Image Generative Models [62.02776252311559]
異なる属性に関する知識は、独立したコンポーネントにローカライズされず、代わりに条件付きUNetのコンポーネントセットに分散される。テキスト・ツー・イメージ・モデルの概念を効果的に編集できる高速でデータフリーなモデル編集手法Diff-QuickFixを提案する。
論文参考訳（メタデータ） (2023-10-20T17:31:12Z)
Reverse Stable Diffusion: What prompt was used to generate this image? [73.10116197883303]
本研究では, 生成拡散モデルにより生成された画像に対して, 迅速な埋め込みを予測できる課題について検討する。本稿では,複数ラベルの語彙分類を目的とする共同学習フレームワークを提案する。我々はDiffusionDBデータセットの実験を行い、安定拡散によって生成された画像からテキストプロンプトを予測する。
論文参考訳（メタデータ） (2023-08-02T23:39:29Z)
LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文参考訳（メタデータ） (2023-05-23T03:59:06Z)
If at First You Don't Succeed, Try, Try Again: Faithful Diffusion-based Text-to-Image Generation by Selection [53.320946030761796]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、テキスト・プロンプトへの忠実さを欠く可能性がある。大規模なT2I拡散モデルは通常想定されるよりも忠実であり、複雑なプロンプトに忠実な画像を生成することができることを示す。本稿では,テキストプロンプトの候補画像を生成するパイプラインを導入し,自動スコアリングシステムにより最適な画像を選択する。
論文参考訳（メタデータ） (2023-05-22T17:59:41Z)
Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文参考訳（メタデータ） (2023-02-06T18:59:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。