Fugu-MT 論文翻訳(概要): SPEGTI: Structured Prediction for Efficient Generative Text-to-Image Models

論文の概要: SPEGTI: Structured Prediction for Efficient Generative Text-to-Image Models

arxiv url: http://arxiv.org/abs/2308.10997v1
Date: Mon, 14 Aug 2023 14:07:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-27 04:56:30.063260
Title: SPEGTI: Structured Prediction for Efficient Generative Text-to-Image Models
Title（参考訳）: SPEGTI:効率的な生成テキスト画像モデルの構造化予測
Authors: Sadeep Jayasumana, Daniel Glasner, Srikumar Ramalingam, Andreas Veit, Ayan Chakrabarti, Sanjiv Kumar
Abstract要約: マルコフランダム場(MRF)モデルを用いて、画像の異なる領域間の互換性を実現するための軽量なアプローチを提案する。 MRFによる推論は非常に安価で、そのパラメータはバックプロパゲーションによって素早く学習することができる。我々のフルモデルであるSPEGTIは、提案したMRFモデルを用いて、出力画像の品質を損なうことなく、Museを1.5倍高速化する。
参考スコア（独自算出の注目度）: 43.66036053597747
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Modern text-to-image generation models produce high-quality images that are both photorealistic and faithful to the text prompts. However, this quality comes at significant computational cost: nearly all of these models are iterative and require running inference multiple times with large models. This iterative process is needed to ensure that different regions of the image are not only aligned with the text prompt, but also compatible with each other. In this work, we propose a light-weight approach to achieving this compatibility between different regions of an image, using a Markov Random Field (MRF) model. This method is shown to work in conjunction with the recently proposed Muse model. The MRF encodes the compatibility among image tokens at different spatial locations and enables us to significantly reduce the required number of Muse prediction steps. Inference with the MRF is significantly cheaper, and its parameters can be quickly learned through back-propagation by modeling MRF inference as a differentiable neural-network layer. Our full model, SPEGTI, uses this proposed MRF model to speed up Muse by 1.5X with no loss in output image quality.
Abstract（参考訳）: 現代のテキスト画像生成モデルは、テキストプロンプトに忠実でフォトリアリスティックな高品質な画像を生成する。これらのモデルのほとんどは反復的であり、大規模なモデルで何度も推論を実行する必要がある。この反復プロセスは、画像の異なる領域がテキストプロンプトと一致しているだけでなく、互いに互換性があることを保証するために必要である。本研究では,マルコフランダム場(MRF)モデルを用いて,画像の異なる領域間の互換性を実現するための軽量なアプローチを提案する。この方法は、最近提案されたMuseモデルと連動して動作する。 MRFは、異なる空間位置における画像トークン間の互換性を符号化し、Muse予測ステップの必要回数を大幅に削減する。 MRFによる推論は非常に安価であり、そのパラメータは、MRF推論を微分可能なニューラルネットワーク層としてモデル化することで、バックプロパゲーションを通じて迅速に学習することができる。我々のフルモデルであるSPEGTIは、提案したMRFモデルを用いて、出力画像の品質を損なうことなく、Museを1.5倍高速化する。

関連論文リスト

Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。 GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文参考訳（メタデータ） (2025-04-24T17:59:56Z)
Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文参考訳（メタデータ） (2024-10-10T17:59:17Z)
Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文参考訳（メタデータ） (2024-06-10T17:59:52Z)
MaxFusion: Plug&Play Multi-Modal Generation in Text-to-Image Diffusion Models [34.611309081801345]
大規模な拡散ベースのテキスト・ツー・イメージ(T2I)モデルでは、テキスト・ツー・イメージ生成に印象的な生成能力がある。本稿では,最小限の計算量で新しいタスクにまたがって生成モデルを拡張するための新しい手法を提案する。
論文参考訳（メタデータ） (2024-04-15T17:55:56Z)
Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack [75.00066365801993]
Webスケールの画像-テキストペアによるテキスト-画像モデルのトレーニングにより、テキストから幅広い視覚概念を生成することができる。これらの事前訓練されたモデルは、高度に美的な画像を生成することに関して、しばしば課題に直面します。本稿では,高度に視覚的に魅力的な画像のみを生成するために,事前学習されたモデルを誘導する品質チューニングを提案する。
論文参考訳（メタデータ） (2023-09-27T17:30:19Z)
Text-Conditioned Sampling Framework for Text-to-Image Generation with Masked Generative Models [52.29800567587504]
そこで本研究では,テキスト情報を用いた局所的監視により最適なトークンを選択するための,学習可能なサンプリングモデルであるテキスト定義トークン選択(TCTS)を提案する。 TCTSは画像の品質だけでなく、生成された画像と与えられたテキストのセマンティックアライメントも改善する。我々は、周波数適応サンプリング(FAS)と様々な生成タスクを組み合わせたTCTSの有効性を検証し、画像テキストのアライメントや画質において、ベースラインを著しく上回ることを示す。
論文参考訳（メタデータ） (2023-04-04T03:52:49Z)
Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文参考訳（メタデータ） (2022-10-25T16:22:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。