論文の概要: D-AR: Diffusion via Autoregressive Models
- arxiv url: http://arxiv.org/abs/2505.23660v1
- Date: Thu, 29 May 2025 17:09:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:08.019358
- Title: D-AR: Diffusion via Autoregressive Models
- Title(参考訳): D-AR:自己回帰モデルによる拡散
- Authors: Ziteng Gao, Mike Zheng Shou,
- Abstract要約: Diffusion via Autoregressive Model (D-AR) は、画像拡散プロセスをバニラ自己回帰法として再キャストする新しいパラダイムである。
本手法は,256個の離散トークンを持つ775MのLlamaバックボーンを用いて,2.09個のFIDを実現する。
- 参考スコア(独自算出の注目度): 21.03363985989625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents Diffusion via Autoregressive models (D-AR), a new paradigm recasting the image diffusion process as a vanilla autoregressive procedure in the standard next-token-prediction fashion. We start by designing the tokenizer that converts images into sequences of discrete tokens, where tokens in different positions can be decoded into different diffusion denoising steps in the pixel space. Thanks to the diffusion properties, these tokens naturally follow a coarse-to-fine order, which directly lends itself to autoregressive modeling. Therefore, we apply standard next-token prediction on these tokens, without modifying any underlying designs (either causal masks or training/inference strategies), and such sequential autoregressive token generation directly mirrors the diffusion procedure in image space. That is, once the autoregressive model generates an increment of tokens, we can directly decode these tokens into the corresponding diffusion denoising step in the streaming manner. Our pipeline naturally reveals several intriguing properties, for example, it supports consistent previews when generating only a subset of tokens and enables zero-shot layout-controlled synthesis. On the standard ImageNet benchmark, our method achieves 2.09 FID using a 775M Llama backbone with 256 discrete tokens. We hope our work can inspire future research on unified autoregressive architectures of visual synthesis, especially with large language models. Code and models will be available at https://github.com/showlab/D-AR
- Abstract(参考訳): 本稿では,Vanilla Autoregressive Method (D-AR) を用いて,画像拡散過程を標準的な次世代の予測方式で,バニラ自己回帰手法として再放送する新しいパラダイムを提案する。
まず、画像を離散トークンのシーケンスに変換するトークンライザを設計し、そこで異なる位置のトークンを画素空間内の異なる拡散分解ステップにデコードする。
拡散特性のおかげで、これらのトークンは自然に粗大な順序に従い、自己回帰モデリングに直結する。
したがって、これらのトークンに対して、基本的な設計(因果マスクやトレーニング/推論戦略)を変更することなく、標準的な次のトークン予測を適用し、このようなシーケンシャルな自己回帰トークン生成は、画像空間における拡散手順を直接反映する。
すなわち、自己回帰モデルがトークンの増分を生成すれば、これらのトークンをストリーミング方式で対応する拡散復調ステップに直接デコードすることができる。
例えば、トークンのサブセットだけを生成するとき、一貫したプレビューをサポートし、ゼロショットレイアウト制御された合成を可能にする。
標準のImageNetベンチマークでは,256個の離散トークンを持つ775MのLlamaバックボーンを用いて,2.09 FIDを達成する。
我々の研究は、視覚合成の統一された自己回帰アーキテクチャ、特に大きな言語モデルに関する将来の研究に刺激を与えてくれることを願っている。
コードとモデルはhttps://github.com/showlab/D-ARで入手できる。
関連論文リスト
- DiSA: Diffusion Step Annealing in Autoregressive Image Generation [35.35184094233562]
MAR、FlowAR、xAR、Harmonなどの自動回帰モデルの増加は、画像生成の品質を向上させるために拡散サンプリングを採用する。
本稿では,この問題を効果的に解決する方法について考察する。
自己回帰プロセス中により多くのトークンが生成されるため、後続のトークンはより制約のある分布に従い、より簡単にサンプリングできる。
論文 参考訳(メタデータ) (2025-05-26T17:59:57Z) - Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - Improving Autoregressive Image Generation through Coarse-to-Fine Token Prediction [4.900334213807624]
自己回帰モデリングをより困難にすることなく、大規模なコードブックのメリットを享受する方法を示す。
本フレームワークは,(1)各トークンの粗いラベルを逐次予測する自己回帰モデル,(2)粗いラベルに条件付けられた全てのトークンの細粒度ラベルを同時に予測する補助モデル,の2段階からなる。
論文 参考訳(メタデータ) (2025-03-20T14:41:29Z) - Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion [61.03681839276652]
拡散強制(Diffusion Forcing)は、拡散モデルをトレーニングし、トークンの集合に独立した音レベルを付与する、新たなトレーニングパラダイムである。
因果的次トーケン予測モデルを訓練して1つまたは複数の未来のトークンを生成することで、シーケンス生成モデルに拡散強制を適用する。
論文 参考訳(メタデータ) (2024-07-01T15:43:25Z) - Autoregressive Image Generation without Vector Quantization [31.798754606008067]
従来の知恵では、画像生成のための自己回帰モデルは一般にベクトル量子化トークンを伴っている。
本研究では,拡散法を用いて確率分布の確率分布をモデル化し,連続値空間に自己回帰モデルを適用することを提案する。
論文 参考訳(メタデータ) (2024-06-17T17:59:58Z) - AR-Diffusion: Auto-Regressive Diffusion Model for Text Generation [138.98095392584693]
本稿では,自己回帰拡散(AR-Diffusion)を導入し,自然言語の固有な逐次特性について考察する。
AR拡散は、右のトークンの生成が左の生成されたトークンに依存することを保証します。
様々なテキスト生成タスクに関する一連の実験において、AR-Diffusionは既存の拡散言語モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2023-05-16T15:10:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。