論文の概要: Continuous Speculative Decoding for Autoregressive Image Generation
- arxiv url: http://arxiv.org/abs/2411.11925v2
- Date: Sun, 28 Sep 2025 08:54:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:13:47.13263
- Title: Continuous Speculative Decoding for Autoregressive Image Generation
- Title(参考訳): 自己回帰画像生成のための連続投機的復号法
- Authors: Zili Wang, Robert Zhang, Kun Ding, Qi Yang, Fei Li, Shiming Xiang,
- Abstract要約: 連続的視覚自己回帰(AR)モデルは、画像生成において有望な性能を示す。
投機的復号化は 事実上 自己回帰推論を加速させた
この研究は、低受理率、不整合出力分布、解析式のない修正分布からの課題に対処する。
- 参考スコア(独自算出の注目度): 27.308442169466975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continuous visual autoregressive (AR) models have demonstrated promising performance in image generation. However, the heavy autoregressive inference burden imposes significant overhead. In Large Language Models (LLMs), speculative decoding has effectively accelerated discrete autoregressive inference. However, the absence of an analogous theory for continuous distributions precludes its use in accelerating continuous AR models. To fill this gap, this work presents continuous speculative decoding, and addresses challenges from: 1) low acceptance rate, caused by inconsistent output distribution between target and draft models, and 2) modified distribution without analytic expression, caused by complex integral. To address challenge 1), we propose denoising trajectory alignment and token pre-filling strategies. To address challenge 2), we introduce acceptance-rejection sampling algorithm with an appropriate upper bound, thereby avoiding explicitly calculating the integral. Furthermore, our denoising trajectory alignment is also reused in acceptance-rejection sampling, effectively avoiding repetitive diffusion model inference. Extensive experiments demonstrate that our proposed continuous speculative decoding achieves over $2\times$ speedup on off-the-shelf models, while maintaining the original generation quality. Codes is available at: https://github.com/MarkXCloud/CSpD
- Abstract(参考訳): 連続的視覚自己回帰(AR)モデルは、画像生成において有望な性能を示す。
しかし、重度の自己回帰的推論の重荷は、かなりのオーバーヘッドを課す。
大規模言語モデル(LLM)では、投機的復号化は離散自己回帰推論を効果的に加速させた。
しかし、連続分布に対する類似理論が存在しないことは、連続ARモデルの加速にその使用を妨げている。
このギャップを埋めるために、この研究は継続的な投機的デコーディングを示し、次のような課題に対処する。
1)ターゲットモデルとドラフトモデル間の不整合出力分布に起因する受入率の低下
2) 複雑な積分が原因で, 解析的表現を伴わない分布が変化した。
課題1に対処するため,軌道アライメントとトークン事前充足戦略を提案する。
課題2に対処するために、適切な上限を持つ受入-退避サンプリングアルゴリズムを導入し、積分を明示的に計算するのを避ける。
さらに, 繰り返し拡散モデル推論を効果的に回避し, 受入-退避サンプリングにおいても軌道アライメントが再利用される。
大規模な実験により,提案した連続投機復号法は,原生成品質を維持しつつ,既製のモデル上で2ドル以上のスピードアップを達成することが示された。
Codes は https://github.com/MarkXCloud/CSpD
関連論文リスト
- Rethinking Discrete Tokens: Treating Them as Conditions for Continuous Autoregressive Image Synthesis [79.98107530577576]
DisConは、離散トークンを生成ターゲットではなく条件信号として再解釈する新しいフレームワークである。
DisConは、ImageNet 256$times $256 世代で gFID スコアが 1.38 に達し、最先端の自己回帰アプローチよりも明確なマージンで優れている。
論文 参考訳(メタデータ) (2025-07-02T14:33:52Z) - Fast Autoregressive Models for Continuous Latent Generation [49.079819389916764]
自己回帰モデルは、特にNLPにおいて、シーケンシャルなデータ生成において顕著な成功を収めている。
最近の研究で、マスク付き自己回帰モデル(MAR)は拡散ヘッドを用いて連続空間内のトーケン分布をモデル化することによって量子化をバイパスする。
本稿では,MARの拡散ヘッドを軽量ショートカットヘッドに置き換える新しいフレームワークであるFast AutoRegressive Model (FAR)を提案する。
論文 参考訳(メタデータ) (2025-04-24T13:57:08Z) - Distributional Diffusion Models with Scoring Rules [83.38210785728994]
拡散モデルは高品質な合成データを生成する。
高品質な出力を生成するには、多くの離散化ステップが必要です。
クリーンデータサンプルの後部エム分布を学習し,サンプル生成を実現することを提案する。
論文 参考訳(メタデータ) (2025-02-04T16:59:03Z) - RDPM: Solve Diffusion Probabilistic Models via Recurrent Token Prediction [17.005198258689035]
拡散確率モデル(DPM)は、高忠実度画像合成のデファクトアプローチとして登場した。
本稿では, 再帰的拡散確率モデル(RDPM, Recurrent Diffusion Probabilistic Model)を提案する。
論文 参考訳(メタデータ) (2024-12-24T12:28:19Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - LANTERN: Accelerating Visual Autoregressive Models with Relaxed Speculative Decoding [30.630803933771865]
実験により,提案手法が投機的復号化よりも大幅に高速化されたことを示す。
LANTERNは、greedyデコーディングやランダムサンプリングと比較して、$mathbf1.75times$と$mathbf1.76times$のスピードアップを増大させる。
論文 参考訳(メタデータ) (2024-10-04T12:21:03Z) - Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion [61.03681839276652]
拡散強制(Diffusion Forcing)は、拡散モデルをトレーニングし、トークンの集合に独立した音レベルを付与する、新たなトレーニングパラダイムである。
因果的次トーケン予測モデルを訓練して1つまたは複数の未来のトークンを生成することで、シーケンス生成モデルに拡散強制を適用する。
論文 参考訳(メタデータ) (2024-07-01T15:43:25Z) - Autoregressive Image Generation without Vector Quantization [31.798754606008067]
従来の知恵では、画像生成のための自己回帰モデルは一般にベクトル量子化トークンを伴っている。
本研究では,拡散法を用いて確率分布の確率分布をモデル化し,連続値空間に自己回帰モデルを適用することを提案する。
論文 参考訳(メタデータ) (2024-06-17T17:59:58Z) - Iterative Token Evaluation and Refinement for Real-World
Super-Resolution [77.74289677520508]
実世界の画像超解像(RWSR)は、低品質(LQ)画像が複雑で未同定の劣化を起こすため、長年にわたる問題である。
本稿では,RWSRのための反復的トークン評価・リファインメントフレームワークを提案する。
ITERはGAN(Generative Adversarial Networks)よりも訓練が容易であり,連続拡散モデルよりも効率的であることを示す。
論文 参考訳(メタデータ) (2023-12-09T17:07:32Z) - Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z) - Variational Diffusion Auto-encoder: Latent Space Extraction from
Pre-trained Diffusion Models [0.0]
可変オートエンコーダ(VAE)は、生成された画像の品質の問題に直面し、しばしば目立った曖昧さを示す。
この問題は、条件付きデータ分布を近似する非現実的な仮定である $p(textbfx | textbfz)$ が等方ガウス的であることに由来する。
本稿では,エンコーダを最適化することにより,既存の拡散モデルから潜在空間を抽出し,限界データのログ化を最大化する方法について述べる。
論文 参考訳(メタデータ) (2023-04-24T14:44:47Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - ChiroDiff: Modelling chirographic data with Diffusion Models [132.5223191478268]
チャーログラフィーデータのための強力なモデルクラスである「拡散確率モデル(Denoising Diffusion Probabilistic Models)」やDDPMを導入している。
我々のモデルは「ChiroDiff」と呼ばれ、非自己回帰的であり、全体論的概念を捉えることを学び、したがって高い時間的サンプリングレートに回復する。
論文 参考訳(メタデータ) (2023-04-07T15:17:48Z) - Generation of data on discontinuous manifolds via continuous stochastic
non-invertible networks [6.201770337181472]
連続ネットワークを用いて不連続分布を生成する方法を示す。
コスト関数と情報理論の定式化の関係を導出する。
提案手法を合成2次元分布に適用し,不連続分布の再構成と生成の両立を実証する。
論文 参考訳(メタデータ) (2021-12-17T17:39:59Z) - Symbolic Music Generation with Diffusion Models [4.817429789586127]
本論文では,前訓練された可変オートエンコーダの連続潜空間における離散領域をパラメータ化することにより,連続データに対する拡散モデルを訓練する手法を提案する。
同じ連続埋め込み上で動作する自己回帰型言語モデルと比較して,強い無条件生成とポストホック条件付インフィル結果を示す。
論文 参考訳(メタデータ) (2021-03-30T05:48:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。