論文の概要: Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation
- arxiv url: http://arxiv.org/abs/2303.09319v1
- Date: Thu, 16 Mar 2023 13:50:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 15:21:40.273623
- Title: Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation
- Title(参考訳): ジョイント主題とテキスト条件画像生成のための統一的マルチモーダル潜在拡散
- Authors: Yiyang Ma, Huan Yang, Wenjing Wang, Jianlong Fu, Jiaying Liu
- Abstract要約: 本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
- 参考スコア(独自算出の注目度): 63.061871048769596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language-guided image generation has achieved great success nowadays by using
diffusion models. However, texts can be less detailed to describe
highly-specific subjects such as a particular dog or a certain car, which makes
pure text-to-image generation not accurate enough to satisfy user requirements.
In this work, we present a novel Unified Multi-Modal Latent Diffusion
(UMM-Diffusion) which takes joint texts and images containing specified
subjects as input sequences and generates customized images with the subjects.
To be more specific, both input texts and images are encoded into one unified
multi-modal latent space, in which the input images are learned to be projected
to pseudo word embedding and can be further combined with text to guide image
generation. Besides, to eliminate the irrelevant parts of the input images such
as background or illumination, we propose a novel sampling technique of
diffusion models used by the image generator which fuses the results guided by
multi-modal input and pure text input. By leveraging the large-scale
pre-trained text-to-image generator and the designed image encoder, our method
is able to generate high-quality images with complex semantics from both
aspects of input texts and images.
- Abstract(参考訳): 近年,拡散モデルを用いて言語誘導画像生成が大きな成功を収めている。
しかし、テキストは特定の犬や特定の車など、特定の対象を詳細に記述することができないため、ユーザー要求を満たすのに十分正確ではない。
本稿では,特定の対象を含む共同テキストや画像を入力シーケンスとして取り出して,被験者とカスタマイズした画像を生成する,Unified Multi-Modal Latent Diffusion (UMM-Diffusion)を提案する。
より具体的に言うと、入力テキストと画像の両方が1つの統一されたマルチモーダル潜在空間にエンコードされ、入力画像は疑似単語埋め込みに投影され、さらにテキストと組み合わせて画像生成を導くことができる。
また、背景や照明などの入力画像の無関係な部分を排除するため、多モード入力と純粋なテキスト入力で導かれる結果を融合させる画像生成装置によって使用される拡散モデルの新しいサンプリング手法を提案する。
画像エンコーダと画像エンコーダを併用することにより,入力テキストと画像の両面から複雑な意味を持つ高品質画像を生成することができる。
関連論文リスト
- Plug-and-Play Diffusion Features for Text-Driven Image-to-Image
Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。
本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文 参考訳(メタデータ) (2022-11-22T20:39:18Z) - HumanDiffusion: a Coarse-to-Fine Alignment Diffusion Framework for
Controllable Text-Driven Person Image Generation [73.3790833537313]
制御可能な人物画像生成は、デジタルヒューマンインタラクションや仮想トライオンといった幅広い応用を促進する。
テキスト駆動型人物画像生成のための粗大なアライメント拡散フレームワークHumanDiffusionを提案する。
論文 参考訳(メタデータ) (2022-11-11T14:30:34Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Unconditional Image-Text Pair Generation with Multimodal Cross Quantizer [8.069590683507997]
マルチモーダル画像テキスト表現のためのベクトル量子化手法MXQ-VAEを提案する。
MXQ-VAEはペア画像とテキストを入力として受け入れ、共同量子化表現空間を学習する。
自己回帰生成モデルを用いて、共同画像-テキスト表現をモデル化し、無条件画像-テキストペア生成を行う。
論文 参考訳(メタデータ) (2022-04-15T16:29:55Z) - Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文 参考訳(メタデータ) (2021-08-03T08:38:16Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。