論文の概要: DiSA: Diffusion Step Annealing in Autoregressive Image Generation
- arxiv url: http://arxiv.org/abs/2505.20297v1
- Date: Mon, 26 May 2025 17:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.149744
- Title: DiSA: Diffusion Step Annealing in Autoregressive Image Generation
- Title(参考訳): DiSA: 自己回帰画像生成における拡散ステップアニール
- Authors: Qinyu Zhao, Jaskirat Singh, Ming Xu, Akshay Asthana, Stephen Gould, Liang Zheng,
- Abstract要約: MAR、FlowAR、xAR、Harmonなどの自動回帰モデルの増加は、画像生成の品質を向上させるために拡散サンプリングを採用する。
本稿では,この問題を効果的に解決する方法について考察する。
自己回帰プロセス中により多くのトークンが生成されるため、後続のトークンはより制約のある分布に従い、より簡単にサンプリングできる。
- 参考スコア(独自算出の注目度): 35.35184094233562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An increasing number of autoregressive models, such as MAR, FlowAR, xAR, and Harmon adopt diffusion sampling to improve the quality of image generation. However, this strategy leads to low inference efficiency, because it usually takes 50 to 100 steps for diffusion to sample a token. This paper explores how to effectively address this issue. Our key motivation is that as more tokens are generated during the autoregressive process, subsequent tokens follow more constrained distributions and are easier to sample. To intuitively explain, if a model has generated part of a dog, the remaining tokens must complete the dog and thus are more constrained. Empirical evidence supports our motivation: at later generation stages, the next tokens can be well predicted by a multilayer perceptron, exhibit low variance, and follow closer-to-straight-line denoising paths from noise to tokens. Based on our finding, we introduce diffusion step annealing (DiSA), a training-free method which gradually uses fewer diffusion steps as more tokens are generated, e.g., using 50 steps at the beginning and gradually decreasing to 5 steps at later stages. Because DiSA is derived from our finding specific to diffusion in autoregressive models, it is complementary to existing acceleration methods designed for diffusion alone. DiSA can be implemented in only a few lines of code on existing models, and albeit simple, achieves $5-10\times$ faster inference for MAR and Harmon and $1.4-2.5\times$ for FlowAR and xAR, while maintaining the generation quality.
- Abstract(参考訳): MAR、FlowAR、xAR、Harmonといった自動回帰モデルの増加は、画像生成の品質を向上させるために拡散サンプリングを採用する。
しかし、この戦略は、通常トークンをサンプリングするために拡散するのに50から100ステップかかるため、推論効率が低下する。
本稿では,この問題を効果的に解決する方法について考察する。
我々の主要な動機は、自己回帰プロセス中により多くのトークンが生成されるにつれて、後続のトークンはより制約された分布に従い、より簡単にサンプリングできるということです。
直感的に説明するには、モデルが犬の一部を生成した場合、残りのトークンは犬を完成させなければならないため、より制約を受ける必要がある。
後代の段階では、次のトークンは多層パーセプトロンによって適切に予測され、低分散を示し、ノイズからトークンへの近距離から直交する経路に従うことができる。
その結果,拡散ステップアニール法 (DiSA) を導入し, より多くのトークンが生成されるにつれて拡散ステップを徐々に減らし, 初期は50ステップ, 後期は5ステップに減らした。
DiSAは自己回帰モデルにおける拡散に特異的な発見から導かれるため、拡散のみのために設計された既存の加速法と相補的である。
DiSAは既存のモデルでわずか数行のコードで実装できるが、MARとHarmonでは5~10ドル、FlowARとxARでは1.4~2.5ドル、生成品質は維持できる。
関連論文リスト
- Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion [61.03681839276652]
拡散強制(Diffusion Forcing)は、拡散モデルをトレーニングし、トークンの集合に独立した音レベルを付与する、新たなトレーニングパラダイムである。
因果的次トーケン予測モデルを訓練して1つまたは複数の未来のトークンを生成することで、シーケンス生成モデルに拡散強制を適用する。
論文 参考訳(メタデータ) (2024-07-01T15:43:25Z) - Accelerating Parallel Sampling of Diffusion Models [25.347710690711562]
自己回帰過程を並列化することにより拡散モデルのサンプリングを高速化する新しい手法を提案する。
これらの手法を適用したParaTAAは、普遍的でトレーニング不要な並列サンプリングアルゴリズムである。
実験により、ParaTAAは一般的なシーケンシャルサンプリングアルゴリズムで要求される推論ステップを4$sim$14倍に削減できることを示した。
論文 参考訳(メタデータ) (2024-02-15T14:27:58Z) - Towards More Accurate Diffusion Model Acceleration with A Timestep
Aligner [84.97253871387028]
数千のデノナイジングステップを用いて画像を生成するために定式化された拡散モデルは通常、遅い推論速度に悩まされる。
最小限のコストで特定の区間に対するより正確な積分方向を見つけるのに役立つ時間ステップ整合器を提案する。
実験により,我々のプラグイン設計を効率的に訓練し,様々な最先端加速度法の推論性能を向上できることが示された。
論文 参考訳(メタデータ) (2023-10-14T02:19:07Z) - Pseudo Numerical Methods for Diffusion Models on Manifolds [77.40343577960712]
Denoising Diffusion Probabilistic Models (DDPM) は、画像やオーディオサンプルなどの高品質なサンプルを生成することができる。
DDPMは最終的なサンプルを生成するために数百から数千のイテレーションを必要とする。
拡散モデル(PNDM)の擬似数値法を提案する。
PNDMは、1000段DDIM(20倍の高速化)と比較して、50段の精度で高品質な合成画像を生成することができる
論文 参考訳(メタデータ) (2022-02-20T10:37:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。