論文の概要: PRedItOR: Text Guided Image Editing with Diffusion Prior
- arxiv url: http://arxiv.org/abs/2302.07979v2
- Date: Mon, 20 Mar 2023 22:00:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 23:55:41.364993
- Title: PRedItOR: Text Guided Image Editing with Diffusion Prior
- Title(参考訳): preditor: diffusion priorによるテキストガイド画像編集
- Authors: Hareesh Ravi, Sachin Kelkar, Midhun Harikumar, Ajinkya Kale
- Abstract要約: テキストガイド画像編集は、テキスト埋め込みの計算集約的な最適化や、テキストガイド画像編集のモデル重みの微調整を必要とする。
我々のアーキテクチャは、テキストプロンプト上に条件付きCLIP画像埋め込みを生成する拡散先行モデルと、CLIP画像埋め込みに条件付き画像を生成するために訓練されたカスタムラテント拡散モデルで構成されている。
我々はこれを、逆DDIMなどの既存のアプローチを用いて、画像デコーダの編集を保存し、テキストガイド画像編集を行う構造と組み合わせる。
- 参考スコア(独自算出の注目度): 2.3022070933226217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have shown remarkable capabilities in generating high
quality and creative images conditioned on text. An interesting application of
such models is structure preserving text guided image editing. Existing
approaches rely on text conditioned diffusion models such as Stable Diffusion
or Imagen and require compute intensive optimization of text embeddings or
fine-tuning the model weights for text guided image editing. We explore text
guided image editing with a Hybrid Diffusion Model (HDM) architecture similar
to DALLE-2. Our architecture consists of a diffusion prior model that generates
CLIP image embedding conditioned on a text prompt and a custom Latent Diffusion
Model trained to generate images conditioned on CLIP image embedding. We
discover that the diffusion prior model can be used to perform text guided
conceptual edits on the CLIP image embedding space without any finetuning or
optimization. We combine this with structure preserving edits on the image
decoder using existing approaches such as reverse DDIM to perform text guided
image editing. Our approach, PRedItOR does not require additional inputs,
fine-tuning, optimization or objectives and shows on par or better results than
baselines qualitatively and quantitatively. We provide further analysis and
understanding of the diffusion prior model and believe this opens up new
possibilities in diffusion models research.
- Abstract(参考訳): 拡散モデルは、テキストで条件づけられた高品質で創造的な画像を生成する素晴らしい能力を示している。
このようなモデルの興味深い応用は、テキストガイド画像編集の構造保存である。
既存のアプローチでは、安定拡散やimagenのようなテキスト条件拡散モデルに依存しており、テキスト埋め込みの計算集約的な最適化や、テキストガイド画像編集のためのモデルの重み付けが必要となる。
DALLE-2と同様のハイブリッド拡散モデル(HDM)アーキテクチャを用いてテキストガイド画像編集を行う。
我々のアーキテクチャは、テキストプロンプト上に条件付きCLIP画像埋め込みを生成する拡散先行モデルと、CLIP画像埋め込みに条件付き画像を生成するために訓練されたカスタムラテント拡散モデルで構成されている。
拡散先行モデルを用いて,CLIP画像埋め込み空間上でテキストガイドによる概念編集を行うことができ,微調整や最適化は行わない。
これを逆ddimなどの既存手法を用いて画像デコーダ上の編集を保存する構造と組み合わせることで、テキスト案内画像編集を行う。
我々のアプローチでは、PRedItORは、微調整、最適化、目的といった追加の入力を必要とせず、ベースラインを質的かつ定量的に比較するよりも、同等または良質な結果を示す。
我々は拡散先行モデルのさらなる分析と理解を提供し、拡散モデル研究の新たな可能性を開くと信じている。
関連論文リスト
- A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z) - ARTIST: Improving the Generation of Text-rich Images with Disentangled Diffusion Models [52.23899502520261]
テキスト構造学習に焦点を当てたARTISTという新しいフレームワークを提案する。
我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。
MARIO-Evalベンチマークの実証結果は,提案手法の有効性を裏付けるものであり,様々な指標において最大15%の改善が見られた。
論文 参考訳(メタデータ) (2024-06-17T19:31:24Z) - LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-Text Generation? [10.72249123249003]
我々は拡散モデルを再検討し、全体論的文脈モデリングと並列復号化の能力を強調した。
本稿では,分割BERTを用いた新しいアーキテクチャLaDiCを導入し,キャプション専用のラテント空間を創出する。
LaDiCは、38.2 BLEU@4と126.2 CIDErのMSデータセット上で拡散ベースのメソッドの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-16T17:47:16Z) - UDiffText: A Unified Framework for High-quality Text Synthesis in
Arbitrary Images via Character-aware Diffusion Models [25.219960711604728]
本稿では,事前学習した拡散モデルを用いたテキスト画像生成手法を提案する。
我々のアプローチは、オリジナルのCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練である。
推論段階の精細化プロセスを用いることで、任意に与えられた画像のテキストを合成する際に、顕著に高いシーケンス精度を実現する。
論文 参考訳(メタデータ) (2023-12-08T07:47:46Z) - Reason out Your Layout: Evoking the Layout Master from Large Language
Models for Text-to-Image Synthesis [47.27044390204868]
本稿では,レイアウト生成器としてLarge Language Models (LLM) を用いたT2I拡散モデルの改良手法を提案する。
実験により,画像の画質とレイアウト精度が大幅に向上した。
論文 参考訳(メタデータ) (2023-11-28T14:51:13Z) - Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and
Latent Diffusion [50.59261592343479]
本稿では、潜伏拡散アーキテクチャの新しい探索であるKandinsky1を紹介する。
提案したモデルは、CLIPのイメージ埋め込みにテキスト埋め込みをマッピングするために別々に訓練されている。
また,テキスト・ツー・イメージ生成,画像融合,テキスト・画像融合,画像のバリエーション生成,テキスト・インペイント/アウトペイントなど,多様な生成モードをサポートするユーザフレンドリーなデモシステムも展開した。
論文 参考訳(メタデータ) (2023-10-05T12:29:41Z) - DiffUTE: Universal Text Editing Diffusion Model [32.384236053455]
汎用的な自己教師型テキスト編集拡散モデル(DiffUTE)を提案する。
それは、その現実的な外観を維持しながら、ソースイメージ内の単語を別の単語に置き換えたり、修正したりすることを目的としている。
提案手法は印象的な性能を実現し,高忠実度画像の編集を可能にする。
論文 参考訳(メタデータ) (2023-05-18T09:06:01Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。