論文の概要: Editing Implicit Assumptions in Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2303.08084v1
- Date: Tue, 14 Mar 2023 17:14:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 13:58:26.236101
- Title: Editing Implicit Assumptions in Text-to-Image Diffusion Models
- Title(参考訳): テキスト・画像拡散モデルにおける帰属推定の編集
- Authors: Hadas Orgad, Bahjat Kawar, Yonatan Belinkov
- Abstract要約: テキストから画像への拡散モデルは、画像を生成するときに世界について暗黙の仮定をすることが多い。
本研究では,事前学習した拡散モデルにおいて,与えられた暗黙の仮定を編集することを目的とする。
モデルパラメータの2.2%を1秒以下で変更するため,本手法は極めて効率的である。
- 参考スコア(独自算出の注目度): 24.685132962653796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image diffusion models often make implicit assumptions about the
world when generating images. While some assumptions are useful (e.g., the sky
is blue), they can also be outdated, incorrect, or reflective of social biases
present in the training data. Thus, there is a need to control these
assumptions without requiring explicit user input or costly re-training. In
this work, we aim to edit a given implicit assumption in a pre-trained
diffusion model. Our Text-to-Image Model Editing method, TIME for short,
receives a pair of inputs: a "source" under-specified prompt for which the
model makes an implicit assumption (e.g., "a pack of roses"), and a
"destination" prompt that describes the same setting, but with a specified
desired attribute (e.g., "a pack of blue roses"). TIME then updates the model's
cross-attention layers, as these layers assign visual meaning to textual
tokens. We edit the projection matrices in these layers such that the source
prompt is projected close to the destination prompt. Our method is highly
efficient, as it modifies a mere 2.2% of the model's parameters in under one
second. To evaluate model editing approaches, we introduce TIMED (TIME
Dataset), containing 147 source and destination prompt pairs from various
domains. Our experiments (using Stable Diffusion) show that TIME is successful
in model editing, generalizes well for related prompts unseen during editing,
and imposes minimal effect on unrelated generations.
- Abstract(参考訳): テキストから画像への拡散モデルは、しばしば画像を生成するときに世界の暗黙の仮定を作る。
いくつかの仮定は有用(例えば空は青)であるが、トレーニングデータに存在する社会的バイアスを時代遅れ、不正確な、あるいは反映することもできる。
したがって、明示的なユーザ入力やコストのかかる再トレーニングを必要とせずに、これらの仮定を制御する必要がある。
本研究では,事前学習した拡散モデルにおいて,与えられた暗黙の仮定を編集することを目的とする。
テキストから画像へのモデル編集方法であるtime for shortは、2つの入力を受け取る: モデルが暗黙の仮定(例えば「バラのパック」)を行う「ソース」未特定プロンプトと、同じ設定を記述しつつ、指定された所望の属性(例えば「青いバラのパック」)を持つ「運命」プロンプト。
timeはモデルのクロスアテンションレイヤを更新し、これらのレイヤはテキストトークンに視覚的な意味を割り当てる。
ソースプロンプトが宛先プロンプトの近くに投影されるように,これらのレイヤ内のプロジェクション行列を編集する。
本手法は,モデルパラメータの2.2%を1秒未満で修正できるため,非常に効率的である。
モデル編集手法を評価するために、様々なドメインから147個のソースと宛先プロンプトペアを含むtimed(time dataset)を導入する。
我々の実験(安定拡散を用いた)では、TIMEはモデル編集に成功し、編集中に見えないプロンプトを一般化し、関係のない世代に最小限の効果を与える。
関連論文リスト
- PRedItOR: Text Guided Image Editing with Diffusion Prior [2.3022070933226217]
テキストガイド画像編集は、テキスト埋め込みの計算集約的な最適化や、テキストガイド画像編集のモデル重みの微調整を必要とする。
我々のアーキテクチャは、テキストプロンプト上に条件付きCLIP画像埋め込みを生成する拡散先行モデルと、CLIP画像埋め込みに条件付き画像を生成するために訓練されたカスタムラテント拡散モデルで構成されている。
我々はこれを、逆DDIMなどの既存のアプローチを用いて、画像デコーダの編集を保存し、テキストガイド画像編集を行う構造と組み合わせる。
論文 参考訳(メタデータ) (2023-02-15T22:58:11Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - High-Fidelity Guided Image Synthesis with Latent Diffusion Models [50.39294302741698]
提案手法は, ユーザ満足度スコアを85.32%以上上回り, 従来の最先端技術よりも優れていた。
人的ユーザ調査の結果、提案手法は、全体のユーザ満足度スコアにおいて、従来の最先端技術よりも85.32%以上優れていたことが示されている。
論文 参考訳(メタデータ) (2022-11-30T15:43:20Z) - InstructPix2Pix: Learning to Follow Image Editing Instructions [103.77092910685764]
人間の指示から画像を編集する手法を提案する。
入力画像とモデルに何をすべきかを指示する命令が与えられたら、我々のモデルはこれらの命令に従って画像を編集します。
入力画像と書き起こしの多様なコレクションに対して、魅力的な編集結果を示す。
論文 参考訳(メタデータ) (2022-11-17T18:58:43Z) - Null-text Inversion for Editing Real Images using Guided Diffusion
Models [44.27570654402436]
精度の高い逆変換手法を導入し、直感的なテキストベースの画像修正を容易にする。
我々のNull-textインバージョンは、公開されている安定拡散モデルに基づいて、様々な画像に対して広範囲に評価し、迅速な編集を行う。
論文 参考訳(メタデータ) (2022-11-17T18:58:14Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Text Generation with Text-Editing Models [78.03750739936956]
このチュートリアルは、テキスト編集モデルと最先端のアプローチの概要を提供する。
生産化に関わる課題と、これらのモデルが幻覚や偏見を軽減するためにどのように使用できるかについて議論する。
論文 参考訳(メタデータ) (2022-06-14T17:58:17Z) - Blended Latent Diffusion [18.043090347648157]
拡散モデルの大きな欠点の1つは、相対的に遅い推論時間である。
本稿では,ジェネリック画像の局所的なテキスト駆動編集の課題に対して,高速化された解決策を提案する。
本手法は, 工芸品のいくつかを省きながら, ベースラインよりも精度がよい。
論文 参考訳(メタデータ) (2022-06-06T17:58:04Z) - GLIDE: Towards Photorealistic Image Generation and Editing with
Text-Guided Diffusion Models [16.786221846896108]
テキスト条件画像合成問題に対する拡散モデルについて検討し、2つの異なるガイダンス戦略を比較した。
後者は、フォトリアリズムとキャプションの類似性の両方において、人間の評価者によって好まれており、しばしばフォトリアリスティックなサンプルを生成する。
我々のモデルは、画像のインペイントを行うように微調整することができ、強力なテキスト駆動画像編集を可能にします。
論文 参考訳(メタデータ) (2021-12-20T18:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。