論文の概要: Drift-AR: Single-Step Visual Autoregressive Generation via Anti-Symmetric Drifting
- arxiv url: http://arxiv.org/abs/2603.28049v2
- Date: Wed, 08 Apr 2026 10:41:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 14:06:04.87641
- Title: Drift-AR: Single-Step Visual Autoregressive Generation via Anti-Symmetric Drifting
- Title(参考訳): Drift-AR:アンチシメトリドリフトによる単段視覚自己回帰生成
- Authors: Zhen Zou, Xiaoxiao Ma, Mingde Yao, Jie Huang, LinJiang Huang, Feng Zhao,
- Abstract要約: 自己回帰(AR)-拡散ハイブリッドパラダイムは、ARの構造的セマンティックモデリングと拡散の高忠実性合成を組み合わせるが、二重速度ボトルネックに悩まされる。
エントロピー信号を利用して両段階を高速化する textbfDrift-AR を提案する。
MAR、TransDiff、NextStep-1の実験では、3.8-5.5$times$ speedup with original 1-NFE decoding, matching or overing original quality。
- 参考スコア(独自算出の注目度): 25.589468409950484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive (AR)-Diffusion hybrid paradigms combine AR's structured semantic modeling with diffusion's high-fidelity synthesis, yet suffer from a dual speed bottleneck: the sequential AR stage and the iterative multi-step denoising of the diffusion vision decode stage. Existing methods address each in isolation without a unified principle design. We observe that the per-position \emph{prediction entropy} of continuous-space AR models naturally encodes spatially varying generation uncertainty, which simultaneously governing draft prediction quality in the AR stage and reflecting the corrective effort required by vision decoding stage, which is not fully explored before. Since entropy is inherently tied to both bottlenecks, it serves as a natural unifying signal for joint acceleration. In this work, we propose \textbf{Drift-AR}, which leverages entropy signal to accelerate both stages: 1) for AR acceleration, we introduce Entropy-Informed Speculative Decoding that align draft-target entropy distributions via a causal-normalized entropy loss, resolving the entropy mismatch that causes excessive draft rejection; 2) for visual decoder acceleration, we reinterpret entropy as the \emph{physical variance} of the initial state for an anti-symmetric drifting field -- high-entropy positions activate stronger drift toward the data manifold while low-entropy positions yield vanishing drift -- enabling single-step (1-NFE) decoding without iterative denoising or distillation. Moreover, both stages share the same entropy signal, which is computed once with no extra cost. Experiments on MAR, TransDiff, and NextStep-1 demonstrate 3.8-5.5$\times$ speedup with genuine 1-NFE decoding, matching or surpassing original quality. Code will be available at https://github.com/aSleepyTree/Drift-AR.
- Abstract(参考訳): 自己回帰(AR)-拡散ハイブリッドパラダイムは、ARの構造的セマンティックモデリングと拡散の高忠実性合成を組み合わせたものだが、逐次ARステージと拡散ビジョンデコードステージの反復多段階認知という2つのスピードボトルネックに悩まされている。
既存のメソッドは、統一された原則設計なしで、それぞれを分離して扱う。
連続空間ARモデルのパーポジション \emph{prediction entropy} は、自然に空間的に異なる生成の不確実性をコードし、同時にARステージのドラフト予測品質を制御し、これまで完全に探索されていない視覚復号ステージで必要とされる補正努力を反映している。
エントロピーは本質的に両方のボトルネックに結びついているので、関節加速の自然な統一信号として機能する。
本研究では、エントロピー信号を利用して両方の段階を加速する「textbf{Drift-AR}」を提案する。
1)ARアクセラレーションのためのエントロピー変換(Entropy-Informed Speculative Decoding)を導入し、因果正規化エントロピー損失を介し、過剰なドラフト拒絶を引き起こすエントロピーミスマッチを解消する。
2) 視覚デコーダアクセラレーションでは, エントロピーを, 反対称ドリフト場の初期状態の「emph{physical variance}」として再解釈し, 高エントロピー位置はデータ多様体への強いドリフトを活性化し, 低エントロピー位置は消滅する。
さらに、どちらの段階も同じエントロピー信号を共有しており、これは余分なコストなしで1回計算される。
MAR、TransDiff、NextStep-1の実験では、3.8-5.5$\times$ speedup with true 1-NFE decoding, matching or overing original quality。
コードはhttps://github.com/aSleepyTree/Drift-ARで入手できる。
関連論文リスト
- A convolutional autoencoder and neural ODE framework for surrogate modeling of transient counterflow flames [0.12314765641075438]
新しい畳み込み自己エンコーダニューラルODE (CAE-NODE) フレームワークが, 過渡的な2次元対流火炎の低次モデル (ROM) に対して提案されている。
このネットワークは、点火、炎伝播、非予混合状態への段階的な遷移を含む過渡過程全体を正確に捉えることができる。
論文 参考訳(メタデータ) (2026-03-16T09:43:49Z) - OmniForcing: Unleashing Real-time Joint Audio-Visual Generation [51.031726911410594]
最近のジョイントオーディオ・視覚拡散モデルは、優れた生成品質を実現するが、高いレイテンシーに悩まされる。
OmniForcingは、オフラインの双方向拡散モデルを高忠実度ストリーミングオートレジェネレータに蒸留する最初のフレームワークである。
論文 参考訳(メタデータ) (2026-03-12T08:17:36Z) - HiAR: Efficient Autoregressive Long Video Generation via Hierarchical Denoising [52.237486207964245]
HiARは階層的なデノベーションフレームワークで、従来の世代順を逆転させる。
発声ステップ毎に全てのブロックを因果生成し、各ブロックが常に同じノイズレベルでコンテキストで条件付けされるようにする。
VBench(20世代)では、HiARは比較したすべての方法の中で最高の総合スコアと最低時間ドリフトを達成する。
論文 参考訳(メタデータ) (2026-03-09T17:58:16Z) - CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization [122.88484422855934]
本稿では,MeanFlowデコーダを備えた1次元因果画像トークンであるCaTokを紹介する。
時間間隔でトークンを選択することで、CaTokは高速なワンステップ生成と高忠実なマルチステップサンプリングの両方をサポートする因果1D表現を学ぶ。
実験により、CaTokはImageNet再構成の最先端の結果を達成し、0.75 FID、22.53 PSNR、0.674 SSIMに達した。
論文 参考訳(メタデータ) (2026-03-06T16:39:17Z) - Adaptive Visual Autoregressive Acceleration via Dual-Linkage Entropy Analysis [50.48301331112126]
我々は,Visual AutoRegressive モデリングのためのトレーニング不要なトークン削減促進フレームワーク NOVA を提案する。
NOVAは、スケールエントロピー成長の屈折点をオンライン同定することにより、推論中のアクティベーションアクティベーションスケールを適応的に決定する。
実験と解析により、NOVAはシンプルで効果的なトレーニングフリー加速フレームワークとして評価される。
論文 参考訳(メタデータ) (2026-02-01T17:29:42Z) - Fast-ARDiff: An Entropy-informed Acceleration Framework for Continuous Space Autoregressive Generation [12.384836052394272]
自己回帰(AR)拡散ハイブリッドパラダイムはARの構造モデリングと拡散合成を組み合わせたものである。
両コンポーネントを協調的に最適化するAR拡散フレームワークFast-ARDiffを提案する。
Fast-ARDiffは、さまざまなモデルにわたる最先端のアクセラレーションを実現する。
論文 参考訳(メタデータ) (2025-12-09T12:35:18Z) - OmniSAT: Compact Action Token, Faster Auto Regression [70.70037017501357]
我々は、コンパクトで転送可能なアクション表現を学ぶOmni Swift Action Tokenizerを紹介する。
その結果、離散トークン化はトレーニングシーケンスを6.8$times$に短縮し、ターゲットエントロピーを低下させる。
論文 参考訳(メタデータ) (2025-10-08T03:55:24Z) - Continuous Speculative Decoding for Autoregressive Image Generation [27.308442169466975]
連続的視覚自己回帰(AR)モデルは、画像生成において有望な性能を示す。
投機的復号化は 事実上 自己回帰推論を加速させた
この研究は、低受理率、不整合出力分布、解析式のない修正分布からの課題に対処する。
論文 参考訳(メタデータ) (2024-11-18T09:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。