論文の概要: Marrying Autoregressive Transformer and Diffusion with Multi-Reference Autoregression
- arxiv url: http://arxiv.org/abs/2506.09482v1
- Date: Wed, 11 Jun 2025 07:50:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.71977
- Title: Marrying Autoregressive Transformer and Diffusion with Multi-Reference Autoregression
- Title(参考訳): マルチ参照自己回帰による自己回帰変換器と拡散の結婚
- Authors: Dingcheng Zhen, Qian Qiao, Tan Yu, Kangxi Wu, Ziwei Zhang, Siyuan Liu, Shunshun Yin, Ming Tao,
- Abstract要約: 本稿では,Autoregressive (AR) Transformerと拡散モデルを組み合わせた最初の画像生成モデルであるTransDiffを紹介する。
TransDiffはラベルと画像を高レベルのセマンティックな特徴にエンコードし、拡散モデルを用いて画像サンプルの分布を推定する。
ImageNet 256x256ベンチマークでは、TransDiffはスタンドアロンのARトランスフォーマーや拡散モデルに基づいて、他の画像生成モデルよりも大幅に優れている。
- 参考スコア(独自算出の注目度): 29.130512830927373
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce TransDiff, the first image generation model that marries Autoregressive (AR) Transformer with diffusion models. In this joint modeling framework, TransDiff encodes labels and images into high-level semantic features and employs a diffusion model to estimate the distribution of image samples. On the ImageNet 256x256 benchmark, TransDiff significantly outperforms other image generation models based on standalone AR Transformer or diffusion models. Specifically, TransDiff achieves a Fr\'echet Inception Distance (FID) of 1.61 and an Inception Score (IS) of 293.4, and further provides x2 faster inference latency compared to state-of-the-art methods based on AR Transformer and x112 faster inference compared to diffusion-only models. Furthermore, building on the TransDiff model, we introduce a novel image generation paradigm called Multi-Reference Autoregression (MRAR), which performs autoregressive generation by predicting the next image. MRAR enables the model to reference multiple previously generated images, thereby facilitating the learning of more diverse representations and improving the quality of generated images in subsequent iterations. By applying MRAR, the performance of TransDiff is improved, with the FID reduced from 1.61 to 1.42. We expect TransDiff to open up a new frontier in the field of image generation.
- Abstract(参考訳): 本稿では,Autoregressive (AR) Transformerと拡散モデルを組み合わせた最初の画像生成モデルであるTransDiffを紹介する。
この共同モデリングフレームワークにおいて、TransDiffはラベルと画像を高レベルなセマンティックな特徴にエンコードし、拡散モデルを用いて画像サンプルの分布を推定する。
ImageNet 256x256ベンチマークでは、TransDiffはスタンドアロンのARトランスフォーマーや拡散モデルに基づいて、他の画像生成モデルよりも大幅に優れている。
具体的には、TransDiff は Fr'echet Inception Distance (FID) の 1.61 と Inception Score (IS) の 293.4 を達成し、さらにAR Transformer と x112 に基づく最先端の手法と比較して x2 より高速な推論遅延を提供する。
さらに、TransDiffモデルに基づいて、次の画像を予測することで自己回帰生成を行うMRAR(Multi-Reference Autoregression)と呼ばれる新しい画像生成パラダイムを導入する。
MRARにより、複数の以前に生成された画像を参照し、より多様な表現の学習を容易にし、その後の反復で生成された画像の品質を向上させることができる。
MRARを適用することにより、TransDiffの性能が向上し、FIDは1.61から1.42に削減された。
TransDiffが画像生成の分野で新たなフロンティアを開くことを期待しています。
関連論文リスト
- One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation [60.54811860967658]
FluxSRはフローマッチングモデルに基づく新しい一段階拡散リアルISRである。
まず,フロートラジェクトリ蒸留(FTD)を導入し,多段階のフローマッチングモデルを1段階のリアルISRに蒸留する。
第2に、画像リアリズムを改善し、生成画像の高周波アーティファクト問題に対処するために、テレビLPIPSを知覚的損失として提案する。
論文 参考訳(メタデータ) (2025-02-04T04:11:29Z) - Causal Diffusion Transformers for Generative Modeling [19.919979972882466]
本稿では,Diffusionモデルの自己回帰(AR)モデルとしてCausal Diffusionを紹介する。
CaulFusionはデコーダのみのトランスフォーマーで、シーケンシャルトークンと拡散ノイズレベルにまたがるデータを二重化する。
論文 参考訳(メタデータ) (2024-12-16T18:59:29Z) - MaskBit: Embedding-free Image Generation via Bit Tokens [54.827480008982185]
我々は,VQGANの実証的,体系的な検討を行い,近代化されたVQGANを導いた。
第2のコントリビューションは、ビットトークンを用いた埋め込み不要な画像生成が、ImageNet 256x256ベンチマークで1.52の最先端のFIDを達成することを示した。
論文 参考訳(メタデータ) (2024-09-24T16:12:12Z) - Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models and Time-Dependent Layer Normalization [26.926712014346432]
本稿では,新しいマルチレゾリューションネットワークと時間依存層正規化を統合することで,拡散モデルの革新的拡張を提案する。
提案手法の有効性は,ImageNet 256 x 256で1.70,ImageNet 512 x 512で2.89の新しい最先端FIDスコアを設定することで,クラス条件のImageNet生成ベンチマークで実証される。
論文 参考訳(メタデータ) (2024-06-13T17:59:58Z) - Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。
これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文 参考訳(メタデータ) (2024-06-10T17:59:52Z) - DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。