論文の概要: LDEdit: Towards Generalized Text Guided Image Manipulation via Latent
Diffusion Models
- arxiv url: http://arxiv.org/abs/2210.02249v1
- Date: Wed, 5 Oct 2022 13:26:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 14:20:47.050877
- Title: LDEdit: Towards Generalized Text Guided Image Manipulation via Latent
Diffusion Models
- Title(参考訳): LDEdit:潜時拡散モデルによる一般化テキストガイド画像操作を目指して
- Authors: Paramanand Chandramouli, Kanchana Vaishnavi Gandikota
- Abstract要約: フレキシブルテキスト入力を持つ単一モデルを用いた汎用画像操作は非常に望ましい。
最近の研究は、事前学習された視覚言語エンコーダを用いて、ジェネリックイメージで訓練された生成モデルを導くことで、この課題に対処している。
本稿では,テキストプロンプトから画像の汎用的な操作を行うための最適化不要な手法を提案する。
- 参考スコア(独自算出の注目度): 12.06277444740134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Research in vision-language models has seen rapid developments off-late,
enabling natural language-based interfaces for image generation and
manipulation. Many existing text guided manipulation techniques are restricted
to specific classes of images, and often require fine-tuning to transfer to a
different style or domain. Nevertheless, generic image manipulation using a
single model with flexible text inputs is highly desirable. Recent work
addresses this task by guiding generative models trained on the generic image
datasets using pretrained vision-language encoders. While promising, this
approach requires expensive optimization for each input. In this work, we
propose an optimization-free method for the task of generic image manipulation
from text prompts. Our approach exploits recent Latent Diffusion Models (LDM)
for text to image generation to achieve zero-shot text guided manipulation. We
employ a deterministic forward diffusion in a lower dimensional latent space,
and the desired manipulation is achieved by simply providing the target text to
condition the reverse diffusion process. We refer to our approach as LDEdit. We
demonstrate the applicability of our method on semantic image manipulation and
artistic style transfer. Our method can accomplish image manipulation on
diverse domains and enables editing multiple attributes in a straightforward
fashion. Extensive experiments demonstrate the benefit of our approach over
competing baselines.
- Abstract(参考訳): 視覚言語モデルの研究は急速に進展し、画像生成と操作のための自然言語ベースのインタフェースが実現された。
多くの既存のテキストガイド操作技術は、画像の特定のクラスに限定されており、異なるスタイルやドメインへの転送には微調整を必要とすることが多い。
それでも、柔軟なテキスト入力を持つ単一モデルを用いた汎用的な画像操作は非常に望ましい。
最近の研究は、事前学習された視覚言語エンコーダを用いて、一般的な画像データセットで訓練された生成モデルを導くことで、この課題に対処している。
有望ではあるが、このアプローチは各入力に対して高価な最適化を必要とする。
そこで本研究では,テキストプロンプトからの画像操作を最適化せずに行う手法を提案する。
提案手法は,テキストから画像への拡散モデル (ldm) を活用し,ゼロショットテキスト誘導操作を実現する。
低次元の潜在空間において決定論的前方拡散を行い、目標テキストを単純に提供して逆拡散過程を条件付けることで所望の操作を実現する。
このアプローチをLDEditと呼びます。
本手法は,意味的イメージ操作と芸術的スタイル伝達に適用できることを示す。
本手法は多様な領域で画像操作が可能であり,複数の属性を簡単な方法で編集することができる。
大規模な実験は、競合するベースラインに対する我々のアプローチの利点を実証する。
関連論文リスト
- De-Diffusion Makes Text a Strong Cross-Modal Interface [33.90004746543745]
我々は、事前訓練されたテキスト-画像拡散モデルを用いてデコードを行うオートエンコーダを用いる。
画像を表すDe-Diffusionテキストの精度と包括性を検証する実験。
単一のDe-Diffusionモデルは、さまざまなテキスト・トゥ・イメージツールに対して転送可能なプロンプトを提供するために一般化することができる。
論文 参考訳(メタデータ) (2023-11-01T16:12:40Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - Towards Real-time Text-driven Image Manipulation with Unconditional
Diffusion Models [33.993466872389085]
画像操作を4.5~10倍高速に学習し、8倍高速に適用するアルゴリズムを開発した。
提案手法では,事前学習したモデルをユーザの指定した画像やテキスト記述にわずか4秒で適用することができる。
論文 参考訳(メタデータ) (2023-04-10T01:21:56Z) - Direct Inversion: Optimization-Free Text-Driven Real Image Editing with
Diffusion Models [0.0]
本稿では,テキストプロンプトを介し,複雑な非厳密な編集を1つの実画像に適用する最適化フリーでゼロな微調整フレームワークを提案する。
高品質,多様性,セマンティック・コヒーレント,忠実な実画像編集において,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-11-15T01:07:38Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - FlexIT: Towards Flexible Semantic Image Translation [59.09398209706869]
我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。
まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。
我々は、入力画像を目標点に向けて反復的に変換し、新しい正規化用語で一貫性と品質を確保する。
論文 参考訳(メタデータ) (2022-03-09T13:34:38Z) - StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators [63.85888518950824]
生成モデルを新しいドメインに移行できるテキスト駆動方式を提案する。
自然言語のプロンプトと数分の訓練によって、我々の手法は複数のドメインにまたがってジェネレータを適応させることができることを示す。
論文 参考訳(メタデータ) (2021-08-02T14:46:46Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。