論文の概要: SDAR: A Synergistic Diffusion-AutoRegression Paradigm for Scalable Sequence Generation
- arxiv url: http://arxiv.org/abs/2510.06303v2
- Date: Thu, 09 Oct 2025 02:55:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 12:56:53.577132
- Title: SDAR: A Synergistic Diffusion-AutoRegression Paradigm for Scalable Sequence Generation
- Title(参考訳): SDAR: スケーラブルシーケンス生成のための相乗的拡散自動回帰パラダイム
- Authors: Shuang Cheng, Yihan Bian, Dawei Liu, Yuhua Jiang, Yihao Liu, Linfeng Zhang, Wenhai Wang, Qipeng Guo, Kai Chen, Biqing Qi, Bowen Zhou,
- Abstract要約: 本稿では, 自己回帰モデルの学習効率を, 拡散の並列推論能力で統一するSynergistic Diffusion-Autoregressionパラダイムを提案する。
SDARは、十分に訓練された自己回帰モデル(AR)を、簡潔でデータ効率のよい適応を通じてブロックワイズ拡散モデルに変換する、軽量なパラダイム変換を実行する。
この知見に基づいて、SDARは最小コストで効率的なAR-拡散変換を実現し、並列生成を可能にしながら、ARレベルのパフォーマンスを維持する。
- 参考スコア(独自算出の注目度): 67.9326911171589
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose SDAR, a Synergistic Diffusion-Autoregression paradigm that unifies the training efficiency of autoregressive models with the parallel inference capability of diffusion. Instead of costly end-to-end diffusion training, SDAR performs a lightweight paradigm conversion that transforms a well-trained autoregressive (AR) model into a blockwise diffusion model through brief, data-efficient adaptation. During inference, SDAR generates sequences autoregressively across blocks for global coherence while decoding all tokens within each block in parallel via a discrete diffusion process. Extensive experiments show that AR models remain substantially more compute-efficient than masked diffusion models, providing a strong foundation for adaptation. Building on this insight, SDAR achieves efficient AR-to-diffusion conversion with minimal cost, preserving AR-level performance while enabling parallel generation. Scaling studies across dense and Mixture-of-Experts architectures confirm that SDAR scales without compromise: larger models exhibit stronger robustness to block size and decoding thresholds, yielding greater speedups without accuracy loss. Beyond efficiency, SDAR demonstrates enhanced reasoning and domain adaptability. Our 30B MoE model surpasses its AR counterpart on challenging scientific reasoning benchmarks such as GPQA and ChemBench, and gains further improvements under test-time scaling methods like majority voting and pass@k. Together, these results establish SDAR as a practical paradigm that combines the strengths of autoregression and diffusion for scalable, high-throughput reasoning.
- Abstract(参考訳): 本稿では,拡散の並列推論能力を備えた自己回帰モデルのトレーニング効率を統一するSynergistic Diffusion-AutoregressionパラダイムであるSDARを提案する。
SDARは、コストのかかるエンドツーエンドの拡散訓練の代わりに、十分に訓練された自己回帰モデル(AR)を、簡潔でデータ効率のよい適応を通じてブロックワイドな拡散モデルに変換する、軽量なパラダイム変換を実行する。
推論中、SDARはグローバルコヒーレンスのためにブロック間で自己回帰的にシーケンスを生成し、各ブロック内のすべてのトークンを離散拡散プロセスを介して並列に復号する。
大規模な実験により、ARモデルはマスク付き拡散モデルよりもはるかに計算効率が高いことが示され、適応のための強力な基盤となっている。
この知見に基づいて、SDARは最小コストで効率的なAR-拡散変換を実現し、並列生成を可能にしながら、ARレベルのパフォーマンスを維持する。
より大型のモデルでは、サイズをブロックし、しきい値をデコードするために強い堅牢性を示し、精度を損なうことなく、より大きなスピードアップをもたらす。
SDARは効率性だけでなく、推論とドメイン適応性の向上も示している。
私たちの30B MoEモデルは、GPQAやChemBenchといった挑戦的な科学的推論ベンチマークに匹敵するARを上回り、多数決やpass@kのようなテスト時のスケーリングメソッドでさらに改善されています。
これらの結果はSDARを自己回帰と拡散の強みを組み合わせた実践的パラダイムとして確立し、スケーラブルで高スループットな推論を行う。
関連論文リスト
- Scale-Wise VAR is Secretly Discrete Diffusion [48.994983608261286]
次なるスケール予測 Visual Autoregressive Generation (VAR) は、拡散ベースモデルを超えながら、最近顕著な性能を示した。
本稿では,VARを再検討し,マルコフの注意マスクを装着した場合,VARは離散拡散と数学的に等価であることを示す。
本稿では, 繰り返し改良やVARへのアーキテクチャ不効率の低減, 収束の高速化, 推論コストの低減, ゼロショット再構成の改善など, 拡散の利点を直接インポートする方法を示す。
論文 参考訳(メタデータ) (2025-09-26T17:58:04Z) - Diffusion Beats Autoregressive in Data-Constrained Settings [46.06809870740238]
自己回帰(AR)モデルは長い間、大きな言語モデルのランドスケープを支配してきた。
近年,ARモデルよりもアドバンテージが低いものの,拡散型言語モデルが将来性のある選択肢として浮上している。
論文 参考訳(メタデータ) (2025-07-21T17:59:57Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Adv-KD: Adversarial Knowledge Distillation for Faster Diffusion Sampling [2.91204440475204]
拡散確率モデル(DPM)は、深層生成モデルの強力なクラスとして登場した。
それらは、サンプル生成中にシーケンシャルなデノイングステップに依存している。
モデルアーキテクチャに直接位相を分解する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-31T08:19:44Z) - Memory-Efficient Fine-Tuning for Quantized Diffusion Model [12.875837358532422]
本稿では,量子化拡散モデルのためのメモリ効率の良い微調整手法であるTuneQDMを紹介する。
提案手法は, 単目的/多目的の両方の世代において, ベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2024-01-09T03:42:08Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。