論文の概要: MarkovGen: Structured Prediction for Efficient Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2308.10997v3
- Date: Fri, 15 Dec 2023 21:16:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 20:19:50.577136
- Title: MarkovGen: Structured Prediction for Efficient Text-to-Image Generation
- Title(参考訳): MarkovGen: 効率的なテキスト・画像生成のための構造化予測
- Authors: Sadeep Jayasumana, Daniel Glasner, Srikumar Ramalingam, Andreas Veit,
Ayan Chakrabarti, Sanjiv Kumar
- Abstract要約: マルコフランダム場(MRF)モデルを用いて、画像の異なる領域間の互換性を実現するための軽量なアプローチを提案する。
MRFによる推論は非常に安価で、そのパラメータはバックプロパゲーションによって素早く学習することができる。
私たちのフルモデルであるMarkovGenは、提案したMRFモデルを使用して、Museを1.5倍高速化し、望ましくない画像アーティファクトを減らして高品質な画像を生成する。
- 参考スコア(独自算出の注目度): 43.66036053597747
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Modern text-to-image generation models produce high-quality images that are
both photorealistic and faithful to the text prompts. However, this quality
comes at significant computational cost: nearly all of these models are
iterative and require running sampling multiple times with large models. This
iterative process is needed to ensure that different regions of the image are
not only aligned with the text prompt, but also compatible with each other. In
this work, we propose a light-weight approach to achieving this compatibility
between different regions of an image, using a Markov Random Field (MRF) model.
We demonstrate the effectiveness of this method on top of the latent
token-based Muse text-to-image model. The MRF richly encodes the compatibility
among image tokens at different spatial locations to improve quality and
significantly reduce the required number of Muse sampling steps. Inference with
the MRF is significantly cheaper, and its parameters can be quickly learned
through back-propagation by modeling MRF inference as a differentiable
neural-network layer. Our full model, MarkovGen, uses this proposed MRF model
to both speed up Muse by 1.5X and produce higher quality images by decreasing
undesirable image artifacts.
- Abstract(参考訳): 現代のテキスト画像生成モデルは、テキストプロンプトに忠実でフォトリアリスティックな高品質な画像を生成する。
これらのモデルのほとんどは反復的であり、大規模なモデルで何度もサンプリングを実行する必要がある。
この反復プロセスは、画像の異なる領域がテキストプロンプトと一致しているだけでなく、互いに互換性があることを保証するために必要である。
本研究では,マルコフランダム場(MRF)モデルを用いて,画像の異なる領域間の互換性を実現するための軽量なアプローチを提案する。
本手法の有効性を,潜在トークンベースのMuseテキスト・画像モデル上で実証する。
MRFは、異なる空間位置における画像トークン間の互換性を豊かに符号化し、品質を改善し、Museサンプリングの必要な回数を大幅に削減する。
MRFによる推論は非常に安価であり、そのパラメータは、MRF推論を微分可能なニューラルネットワーク層としてモデル化することで、バックプロパゲーションを通じて迅速に学習することができる。
私たちのフルモデルであるMarkovGenは、提案したMRFモデルを使用して、Museを1.5倍高速化し、望ましくない画像アーティファクトを減らして高品質な画像を生成する。
関連論文リスト
- Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。
これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文 参考訳(メタデータ) (2024-06-10T17:59:52Z) - MaxFusion: Plug&Play Multi-Modal Generation in Text-to-Image Diffusion Models [34.611309081801345]
大規模な拡散ベースのテキスト・ツー・イメージ(T2I)モデルでは、テキスト・ツー・イメージ生成に印象的な生成能力がある。
本稿では,最小限の計算量で新しいタスクにまたがって生成モデルを拡張するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-15T17:55:56Z) - Emu: Enhancing Image Generation Models Using Photogenic Needles in a
Haystack [75.00066365801993]
Webスケールの画像-テキストペアによるテキスト-画像モデルのトレーニングにより、テキストから幅広い視覚概念を生成することができる。
これらの事前訓練されたモデルは、高度に美的な画像を生成することに関して、しばしば課題に直面します。
本稿では,高度に視覚的に魅力的な画像のみを生成するために,事前学習されたモデルを誘導する品質チューニングを提案する。
論文 参考訳(メタデータ) (2023-09-27T17:30:19Z) - Text-Conditioned Sampling Framework for Text-to-Image Generation with
Masked Generative Models [52.29800567587504]
そこで本研究では,テキスト情報を用いた局所的監視により最適なトークンを選択するための,学習可能なサンプリングモデルであるテキスト定義トークン選択(TCTS)を提案する。
TCTSは画像の品質だけでなく、生成された画像と与えられたテキストのセマンティックアライメントも改善する。
我々は、周波数適応サンプリング(FAS)と様々な生成タスクを組み合わせたTCTSの有効性を検証し、画像テキストのアライメントや画質において、ベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2023-04-04T03:52:49Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。