論文の概要: Effective and Efficient Masked Image Generation Models
- arxiv url: http://arxiv.org/abs/2503.07197v1
- Date: Mon, 10 Mar 2025 11:27:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:50:59.572479
- Title: Effective and Efficient Masked Image Generation Models
- Title(参考訳): 効率的なマスク画像生成モデル
- Authors: Zebin You, Jingyang Ou, Xiaolu Zhang, Jun Hu, Jun Zhou, Chongxuan Li,
- Abstract要約: 実証的に、eMIGMはImageNet生成に強いパフォーマンスを示す。
eMIGMは最先端の連続拡散モデルに匹敵する性能を達成する。
- 参考スコア(独自算出の注目度): 28.69218070905971
- License:
- Abstract: Although masked image generation models and masked diffusion models are designed with different motivations and objectives, we observe that they can be unified within a single framework. Building upon this insight, we carefully explore the design space of training and sampling, identifying key factors that contribute to both performance and efficiency. Based on the improvements observed during this exploration, we develop our model, referred to as eMIGM. Empirically, eMIGM demonstrates strong performance on ImageNet generation, as measured by Fr\'echet Inception Distance (FID). In particular, on ImageNet 256x256, with similar number of function evaluations (NFEs) and model parameters, eMIGM outperforms the seminal VAR. Moreover, as NFE and model parameters increase, eMIGM achieves performance comparable to the state-of-the-art continuous diffusion models while requiring less than 40% of the NFE. Additionally, on ImageNet 512x512, with only about 60% of the NFE, eMIGM outperforms the state-of-the-art continuous diffusion models.
- Abstract(参考訳): マスク付き画像生成モデルとマスク付き拡散モデルはそれぞれ異なるモチベーションと目的を持って設計されているが、単一のフレームワークで統一できることを観察する。
この洞察に基づいて、私たちは、トレーニングとサンプリングの設計空間を慎重に探求し、パフォーマンスと効率の両方に寄与する主要な要因を特定します。
この調査で得られた改善に基づき,eMIGMと呼ばれるモデルを開発した。
実証的に、eMIGMはFr\echet Inception Distance (FID)によって測定された、ImageNet生成に強いパフォーマンスを示す。
特に、ImageNet 256x256では、同様の関数評価(NFE)とモデルパラメータがあり、eMIGMはセミナルVARよりも優れています。
さらに、NFEとモデルパラメータが増加するにつれて、eMIGMはNFEの40%未満を必要としながら、最先端の継続的拡散モデルに匹敵する性能を達成する。
さらに、ImageNet 512x512では、NFEの60%しかありませんが、eMIGMは最先端の継続的拡散モデルよりも優れています。
関連論文リスト
- Diffusion Models without Classifier-free Guidance [41.59396565229466]
モデルガイダンス(MG)は拡散モデルアドレスを訓練するための新しい目的であり、よく使われるガイダンス(CFG)を除去する。
我々の革新的なアプローチは、標準モデリングを超越し、条件の後方確率を組み込む。
提案手法は,CFGを用いた並列拡散モデルにおいても,学習過程を著しく加速し,推論速度を2倍にし,並列拡散モデルでさえ並列に超える異常な品質を実現する。
論文 参考訳(メタデータ) (2025-02-17T18:59:50Z) - Masked Autoencoders Are Effective Tokenizers for Diffusion Models [56.08109308294133]
MAETokは自己エンコーダであり、再構築の忠実さを維持しながら意味的にリッチな潜在空間を学習する。
MaETokは1.69のgFIDで76倍高速トレーニングが可能で、512x512世代で31倍高い推論スループットを実現している。
論文 参考訳(メタデータ) (2025-02-05T18:42:04Z) - On Improved Conditioning Mechanisms and Pre-training Strategies for Diffusion Models [27.402312440922557]
最高の潜伏拡散モデル (LDMs) トレーニングレシピの鍵となる要素は、しばしば研究コミュニティでは利用できない。
我々は,モデルの性能とトレーニング効率に着目したLCMトレーニングレシピの詳細な研究を行う。
本稿では,セマンティクスと制御メタデータの条件付けを両立させる新しい条件付け機構を提案する。
論文 参考訳(メタデータ) (2024-11-05T15:22:26Z) - Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective [52.778766190479374]
遅延ベース画像生成モデルは、画像生成タスクにおいて顕著な成功を収めた。
同じ遅延空間を共有するにもかかわらず、自己回帰モデルは画像生成において LDM や MIM よりもかなり遅れている。
本稿では,画像生成モデルのための遅延空間を安定化する,単純だが効果的な離散画像トークン化手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T12:13:17Z) - Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
本稿では,非自己回帰型マスク画像モデリング(MIM)をSDXLのような最先端拡散モデルに匹敵するレベルまで高めるMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いる。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。
これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文 参考訳(メタデータ) (2024-06-10T17:59:52Z) - DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。