論文の概要: Muse: Text-To-Image Generation via Masked Generative Transformers
- arxiv url: http://arxiv.org/abs/2301.00704v1
- Date: Mon, 2 Jan 2023 14:43:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 13:40:00.123667
- Title: Muse: Text-To-Image Generation via Masked Generative Transformers
- Title(参考訳): Muse: マスケ生成変換器によるテキスト対画像生成
- Authors: Huiwen Chang, Han Zhang, Jarred Barber, AJ Maschinot, Jose Lezama, Lu
Jiang, Ming-Hsuan Yang, Kevin Murphy, William T. Freeman, Michael Rubinstein,
Yuanzhen Li, Dilip Krishnan
- Abstract要約: Museはテキストから画像への変換モデルであり、最先端の画像生成性能を実現する。
Imagen や DALL-E 2 のようなピクセル空間拡散モデルと比較して、Muse は離散トークンを使用するため、はるかに効率的である。
Museはまた、モデルを微調整したり反転したりすることなく、多数の画像編集アプリケーションを直接可能にしている。
- 参考スコア(独自算出の注目度): 81.23620322077385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Muse, a text-to-image Transformer model that achieves
state-of-the-art image generation performance while being significantly more
efficient than diffusion or autoregressive models. Muse is trained on a masked
modeling task in discrete token space: given the text embedding extracted from
a pre-trained large language model (LLM), Muse is trained to predict randomly
masked image tokens. Compared to pixel-space diffusion models, such as Imagen
and DALL-E 2, Muse is significantly more efficient due to the use of discrete
tokens and requiring fewer sampling iterations; compared to autoregressive
models, such as Parti, Muse is more efficient due to the use of parallel
decoding. The use of a pre-trained LLM enables fine-grained language
understanding, translating to high-fidelity image generation and the
understanding of visual concepts such as objects, their spatial relationships,
pose, cardinality etc. Our 900M parameter model achieves a new SOTA on CC3M,
with an FID score of 6.06. The Muse 3B parameter model achieves an FID of 7.88
on zero-shot COCO evaluation, along with a CLIP score of 0.32. Muse also
directly enables a number of image editing applications without the need to
fine-tune or invert the model: inpainting, outpainting, and mask-free editing.
More results are available at https://muse-model.github.io
- Abstract(参考訳): 本稿では,画像変換モデルであるmuseについて述べる。画像生成性能は拡散モデルや自己回帰モデルよりも大幅に優れている。
事前訓練された大きな言語モデル(LLM)から抽出されたテキスト埋め込みを考慮すれば、Museはランダムにマスクされた画像トークンを予測するために訓練される。
Imagen や DALL-E 2 のようなピクセル空間拡散モデルと比較すると、Muse は離散トークンの使用とサンプリング反復の少ないため、はるかに効率的である。
事前訓練されたLLMを使用することで、高忠実度画像生成への変換や、オブジェクトや空間関係、ポーズ、濃度などの視覚概念の理解といった、きめ細かい言語理解が可能になる。
我々の900Mパラメータモデルは、CC3M上で新しいSOTAを達成し、FIDスコアは6.06である。
Muse 3Bパラメータモデルは、ゼロショットCOCO評価のFIDが7.88、CLIPスコアが0.32である。
museはまた、モデルを微調整したり反転させたりする必要なしに、多くの画像編集アプリケーションを直接可能にしている。
詳細はhttps://muse-model.github.ioで確認できる。
関連論文リスト
- Simple and Effective Masked Diffusion Language Models [48.68198363304619]
単純なマスク付き離散拡散は以前考えられていたよりも性能が高いことを示す。
私たちの目標はシンプルなフォーム -- 古典的なマスキング言語モデリング損失の混合です。
言語モデリングベンチマークでは、現代のエンジニアリングプラクティスで訓練された様々なマスク付き拡散モデルが、新しい最先端技術を実現している。
論文 参考訳(メタデータ) (2024-06-11T17:51:40Z) - MarkovGen: Structured Prediction for Efficient Text-to-Image Generation [43.66036053597747]
マルコフランダム場(MRF)モデルを用いて、画像の異なる領域間の互換性を実現するための軽量なアプローチを提案する。
MRFによる推論は非常に安価で、そのパラメータはバックプロパゲーションによって素早く学習することができる。
私たちのフルモデルであるMarkovGenは、提案したMRFモデルを使用して、Museを1.5倍高速化し、望ましくない画像アーティファクトを減らして高品質な画像を生成する。
論文 参考訳(メタデータ) (2023-08-14T14:07:17Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - MDTv2: Masked Diffusion Transformer is a Strong Image Synthesizer [158.06850125920923]
拡散確率モデル(DPM)は、画像内の対象部分間の関係を学習する文脈推論能力に欠けることが多い。
画像中のオブジェクトの意味部分間の文脈的関係学習能力を高めるマスク潜在モデリング手法を提案する。
実験の結果、MDTv2は画像合成性能に優れており、例えば、新しいSOTA FIDスコアはImageNetデータセットで1.58であり、従来のSOTA DiTよりも10倍以上高速であることがわかった。
論文 参考訳(メタデータ) (2023-03-25T07:47:21Z) - Designing BERT for Convolutional Networks: Sparse and Hierarchical
Masked Modeling [23.164631160130092]
BERT型事前学習(仮面画像モデリング)の成功を畳み込みネットワーク(畳み込みネットワーク)に拡張する。
我々は、3次元点雲のスパースボクセルとして非マス化画素を扱い、スパース畳み込みを用いてエンコードする。
これは2次元マスクモデリングにおけるスパース畳み込みの最初の使用である。
論文 参考訳(メタデータ) (2023-01-09T18:59:50Z) - LayoutLMv3: Pre-training for Document AI with Unified Text and Image
Masking [83.09001231165985]
テキストと画像のマスキングを併用した文書AIのためのマルチモーダルトランスフォーマーを事前学習するためのLayoutLMv3を提案する。
単純な統一アーキテクチャとトレーニングの目的により、LayoutLMv3はテキスト中心および画像中心のDocument AIタスクの汎用的な事前トレーニングモデルになる。
論文 参考訳(メタデータ) (2022-04-18T16:19:52Z) - CM3: A Causal Masked Multimodal Model of the Internet [86.32652030161374]
構造化マルチモーダル文書の大規模コーパス上で訓練された因果マスク付き生成モデルのファミリーであるCM3を紹介する。
我々は、大規模ウェブやウィキペディアの記事で因果的にマスキングされた言語イメージモデルを訓練する。
CM3モデルは、任意のマスキングされた文書コンテキストを条件にしながら、リッチな構造化されたマルチモーダル出力を生成することができる。
論文 参考訳(メタデータ) (2022-01-19T10:45:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。