Fugu-MT 論文翻訳(概要): Continuous Speculative Decoding for Autoregressive Image Generation

論文の概要: Continuous Speculative Decoding for Autoregressive Image Generation

arxiv url: http://arxiv.org/abs/2411.11925v2
Date: Sun, 28 Sep 2025 08:54:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-30 14:13:47.13263
Title: Continuous Speculative Decoding for Autoregressive Image Generation
Title（参考訳）: 自己回帰画像生成のための連続投機的復号法
Authors: Zili Wang, Robert Zhang, Kun Ding, Qi Yang, Fei Li, Shiming Xiang,
Abstract要約: 連続的視覚自己回帰(AR)モデルは、画像生成において有望な性能を示す。投機的復号化は事実上自己回帰推論を加速させたこの研究は、低受理率、不整合出力分布、解析式のない修正分布からの課題に対処する。
参考スコア（独自算出の注目度）: 27.308442169466975
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Continuous visual autoregressive (AR) models have demonstrated promising performance in image generation. However, the heavy autoregressive inference burden imposes significant overhead. In Large Language Models (LLMs), speculative decoding has effectively accelerated discrete autoregressive inference. However, the absence of an analogous theory for continuous distributions precludes its use in accelerating continuous AR models. To fill this gap, this work presents continuous speculative decoding, and addresses challenges from: 1) low acceptance rate, caused by inconsistent output distribution between target and draft models, and 2) modified distribution without analytic expression, caused by complex integral. To address challenge 1), we propose denoising trajectory alignment and token pre-filling strategies. To address challenge 2), we introduce acceptance-rejection sampling algorithm with an appropriate upper bound, thereby avoiding explicitly calculating the integral. Furthermore, our denoising trajectory alignment is also reused in acceptance-rejection sampling, effectively avoiding repetitive diffusion model inference. Extensive experiments demonstrate that our proposed continuous speculative decoding achieves over $2\times$ speedup on off-the-shelf models, while maintaining the original generation quality. Codes is available at: https://github.com/MarkXCloud/CSpD
Abstract（参考訳）: 連続的視覚自己回帰(AR)モデルは、画像生成において有望な性能を示す。しかし、重度の自己回帰的推論の重荷は、かなりのオーバーヘッドを課す。大規模言語モデル(LLM)では、投機的復号化は離散自己回帰推論を効果的に加速させた。しかし、連続分布に対する類似理論が存在しないことは、連続ARモデルの加速にその使用を妨げている。このギャップを埋めるために、この研究は継続的な投機的デコーディングを示し、次のような課題に対処する。 1)ターゲットモデルとドラフトモデル間の不整合出力分布に起因する受入率の低下 2) 複雑な積分が原因で, 解析的表現を伴わない分布が変化した。課題1に対処するため,軌道アライメントとトークン事前充足戦略を提案する。課題2に対処するために、適切な上限を持つ受入-退避サンプリングアルゴリズムを導入し、積分を明示的に計算するのを避ける。さらに, 繰り返し拡散モデル推論を効果的に回避し, 受入-退避サンプリングにおいても軌道アライメントが再利用される。大規模な実験により,提案した連続投機復号法は,原生成品質を維持しつつ,既製のモデル上で2ドル以上のスピードアップを達成することが示された。 Codes は https://github.com/MarkXCloud/CSpD

関連論文リスト

$\f{D^3}$QE: Learning Discrete Distribution Discrepancy-aware Quantization Error for Autoregressive-Generated Image Detection [85.9202830503973]
視覚的自己回帰(AR)モデルは、離散トークン予測を通じて画像を生成する。本稿では,離散分布離散性を考慮した量子化誤差(D$3$QE)を自己回帰画像検出に活用することを提案する。
論文参考訳（メタデータ） (2025-10-07T13:02:27Z)
Test-Time Anchoring for Discrete Diffusion Posterior Sampling [38.507644561076894]
後方サンプリングは、事前訓練された離散拡散基礎モデルにとって難しい問題である。マスク拡散基礎モデルのためのAnchored Posterior Smpling (APS) を提案する。本手法は線形および非線形逆問題に対する離散拡散サンプリング器の最先端性能を実現する。
論文参考訳（メタデータ） (2025-10-02T17:58:37Z)
Continuously Augmented Discrete Diffusion model for Categorical Generative Modeling [87.34677262370924]
標準離散拡散モデルは、吸収[MASK]トークンにそれらをマッピングすることで、すべての観測されていない状態を同一に扱う。これは'インフォメーション・ヴォイド'を生成します。そこでは、偽のトークンから推測できるセマンティック情報は、デノイングステップの間に失われます。連続的拡張離散拡散(Continuously Augmented Discrete Diffusion)は、連続的な潜在空間における対拡散で離散状態空間を拡大するフレームワークである。
論文参考訳（メタデータ） (2025-10-01T18:00:56Z)
Rethinking Discrete Tokens: Treating Them as Conditions for Continuous Autoregressive Image Synthesis [79.98107530577576]
DisConは、離散トークンを生成ターゲットではなく条件信号として再解釈する新しいフレームワークである。 DisConは、ImageNet 256$times $256 世代で gFID スコアが 1.38 に達し、最先端の自己回帰アプローチよりも明確なマージンで優れている。
論文参考訳（メタデータ） (2025-07-02T14:33:52Z)
Fast Autoregressive Models for Continuous Latent Generation [49.079819389916764]
自己回帰モデルは、特にNLPにおいて、シーケンシャルなデータ生成において顕著な成功を収めている。最近の研究で、マスク付き自己回帰モデル(MAR)は拡散ヘッドを用いて連続空間内のトーケン分布をモデル化することによって量子化をバイパスする。本稿では,MARの拡散ヘッドを軽量ショートカットヘッドに置き換える新しいフレームワークであるFast AutoRegressive Model (FAR)を提案する。
論文参考訳（メタデータ） (2025-04-24T13:57:08Z)
Frequency Autoregressive Image Generation with Continuous Tokens [31.833852108014312]
本稿では、周波数プログレッシブ自己回帰(textbfFAR)パラダイムを導入し、連続トークン化器を用いてFARをインスタンス化する。我々は、ImageNetデータセットの総合的な実験を通して、FARの有効性を実証する。
論文参考訳（メタデータ） (2025-03-07T10:34:04Z)
Distributional Diffusion Models with Scoring Rules [83.38210785728994]
拡散モデルは高品質な合成データを生成する。高品質な出力を生成するには、多くの離散化ステップが必要です。クリーンデータサンプルの後部エム分布を学習し,サンプル生成を実現することを提案する。
論文参考訳（メタデータ） (2025-02-04T16:59:03Z)
RDPM: Solve Diffusion Probabilistic Models via Recurrent Token Prediction [17.005198258689035]
拡散確率モデル(DPM)は、高忠実度画像合成のデファクトアプローチとして登場した。本稿では, 再帰的拡散確率モデル(RDPM, Recurrent Diffusion Probabilistic Model)を提案する。
論文参考訳（メタデータ） (2024-12-24T12:28:19Z)
Fast constrained sampling in pre-trained diffusion models [80.99262780028015]
任意の制約下で高速で高品質な生成を可能にするアルゴリズムを提案する。我々の手法は、最先端のトレーニングフリー推論手法に匹敵するか、超越した結果をもたらす。
論文参考訳（メタデータ） (2024-10-24T14:52:38Z)
COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文参考訳（メタデータ） (2024-10-12T23:56:19Z)
LANTERN: Accelerating Visual Autoregressive Models with Relaxed Speculative Decoding [30.630803933771865]
実験により,提案手法が投機的復号化よりも大幅に高速化されたことを示す。 LANTERNは、greedyデコーディングやランダムサンプリングと比較して、$mathbf1.75times$と$mathbf1.76times$のスピードアップを増大させる。
論文参考訳（メタデータ） (2024-10-04T12:21:03Z)
Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion [61.03681839276652]
拡散強制(Diffusion Forcing)は、拡散モデルをトレーニングし、トークンの集合に独立した音レベルを付与する、新たなトレーニングパラダイムである。因果的次トーケン予測モデルを訓練して1つまたは複数の未来のトークンを生成することで、シーケンス生成モデルに拡散強制を適用する。
論文参考訳（メタデータ） (2024-07-01T15:43:25Z)
Autoregressive Image Generation without Vector Quantization [31.798754606008067]
従来の知恵では、画像生成のための自己回帰モデルは一般にベクトル量子化トークンを伴っている。本研究では,拡散法を用いて確率分布の確率分布をモデル化し,連続値空間に自己回帰モデルを適用することを提案する。
論文参考訳（メタデータ） (2024-06-17T17:59:58Z)
Iterative Token Evaluation and Refinement for Real-World Super-Resolution [77.74289677520508]
実世界の画像超解像(RWSR)は、低品質(LQ)画像が複雑で未同定の劣化を起こすため、長年にわたる問題である。本稿では,RWSRのための反復的トークン評価・リファインメントフレームワークを提案する。 ITERはGAN(Generative Adversarial Networks)よりも訓練が容易であり,連続拡散モデルよりも効率的であることを示す。
論文参考訳（メタデータ） (2023-12-09T17:07:32Z)
Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文参考訳（メタデータ） (2023-07-17T07:12:29Z)
Variational Diffusion Auto-encoder: Latent Space Extraction from Pre-trained Diffusion Models [0.0]
可変オートエンコーダ(VAE)は、生成された画像の品質の問題に直面し、しばしば目立った曖昧さを示す。この問題は、条件付きデータ分布を近似する非現実的な仮定である $p(textbfx | textbfz)$ が等方ガウス的であることに由来する。本稿では,エンコーダを最適化することにより,既存の拡散モデルから潜在空間を抽出し,限界データのログ化を最大化する方法について述べる。
論文参考訳（メタデータ） (2023-04-24T14:44:47Z)
Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文参考訳（メタデータ） (2023-04-22T15:32:59Z)
ChiroDiff: Modelling chirographic data with Diffusion Models [132.5223191478268]
チャーログラフィーデータのための強力なモデルクラスである「拡散確率モデル(Denoising Diffusion Probabilistic Models)」やDDPMを導入している。我々のモデルは「ChiroDiff」と呼ばれ、非自己回帰的であり、全体論的概念を捉えることを学び、したがって高い時間的サンプリングレートに回復する。
論文参考訳（メタデータ） (2023-04-07T15:17:48Z)
Generation of data on discontinuous manifolds via continuous stochastic non-invertible networks [6.201770337181472]
連続ネットワークを用いて不連続分布を生成する方法を示す。コスト関数と情報理論の定式化の関係を導出する。提案手法を合成2次元分布に適用し,不連続分布の再構成と生成の両立を実証する。
論文参考訳（メタデータ） (2021-12-17T17:39:59Z)
Symbolic Music Generation with Diffusion Models [4.817429789586127]
本論文では,前訓練された可変オートエンコーダの連続潜空間における離散領域をパラメータ化することにより,連続データに対する拡散モデルを訓練する手法を提案する。同じ連続埋め込み上で動作する自己回帰型言語モデルと比較して,強い無条件生成とポストホック条件付インフィル結果を示す。
論文参考訳（メタデータ） (2021-03-30T05:48:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。