論文の概要: Fast and Accurate Causal Parallel Decoding using Jacobi Forcing
- arxiv url: http://arxiv.org/abs/2512.14681v1
- Date: Tue, 16 Dec 2025 18:45:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.838424
- Title: Fast and Accurate Causal Parallel Decoding using Jacobi Forcing
- Title(参考訳): Jacobi フォーシングを用いた高速かつ高精度な因果並列復号法
- Authors: Lanxiang Hu, Siqi Kou, Yichao Fu, Samyam Rajbhandari, Tajana Rosing, Yuxiong He, Zhijie Deng, Hao Zhang,
- Abstract要約: Jacobi Forcingはプログレッシブ蒸留パラダイムであり、モデルが独自の並列復号軌道で訓練される。
我々は,複数ブロックの復号化とリジェクション・リサイクリングを導入し,最大4.5倍高いトークン受入数と4.0倍のウォールクロック・スピードアップを実現した。
- 参考スコア(独自算出の注目度): 41.89066334075016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-token generation has emerged as a promising paradigm for accelerating transformer-based large model inference. Recent efforts primarily explore diffusion Large Language Models (dLLMs) for parallel decoding to reduce inference latency. To achieve AR-level generation quality, many techniques adapt AR models into dLLMs to enable parallel decoding. However, they suffer from limited speedup compared to AR models due to a pretrain-to-posttrain mismatch. Specifically, the masked data distribution in post-training deviates significantly from the real-world data distribution seen during pretraining, and dLLMs rely on bidirectional attention, which conflicts with the causal prior learned during pretraining and hinders the integration of exact KV cache reuse. To address this, we introduce Jacobi Forcing, a progressive distillation paradigm where models are trained on their own generated parallel decoding trajectories, smoothly shifting AR models into efficient parallel decoders while preserving their pretrained causal inference property. The models trained under this paradigm, Jacobi Forcing Model, achieves 3.8x wall-clock speedup on coding and math benchmarks with minimal loss in performance. Based on Jacobi Forcing Models' trajectory characteristics, we introduce multi-block decoding with rejection recycling, which enables up to 4.5x higher token acceptance count per iteration and nearly 4.0x wall-clock speedup, effectively trading additional compute for lower inference latency. Our code is available at https://github.com/hao-ai-lab/JacobiForcing.
- Abstract(参考訳): マルチトークン生成は、トランスフォーマーベースの大規模モデル推論を加速するための有望なパラダイムとして登場した。
近年,並列デコーディングのための拡散型大言語モデル (dLLM) について検討している。
ARレベルの生成品質を達成するため、多くのテクニックがARモデルをdLLMに適応させ、並列デコードを可能にする。
しかし、前列から後列までのミスマッチのため、ARモデルと比較して制限的なスピードアップに悩まされている。
特に,ポストトレーニングにおけるマスク付きデータ分布は,事前トレーニング中に見られる実世界のデータ分布とは大きく異なっており,dLLMは,事前トレーニング中に学んだ因果関係と矛盾し,正確なKVキャッシュの再利用を妨げている。
これを解決するために, 進行蒸留パラダイムであるJacovi Forcingを導入する。このパラダイムでは, モデル生成した並列デコード軌道上で, 事前学習した因果推論特性を保ちながら, ARモデルをスムーズに並列デコーダに変換する。
このパラダイムの下で訓練されたモデルであるJacobi Forcing Modelは、パフォーマンスの損失を最小限に抑えたコーディングと数学ベンチマークで3.8倍のウォールクロック高速化を実現している。
Jacobi Forcing Modelsのトラジェクトリ特性に基づき、リジェクションリサイクルによるマルチブロックデコーディングを導入し、イテレーション毎に最大4.5倍高いトークン受け入れカウントと4.0倍のウォールクロック高速化を実現し、推論遅延の低減を効果的に計算する。
私たちのコードはhttps://github.com/hao-ai-lab/JacobiForcing.comで公開されています。
関連論文リスト
- dParallel: Learnable Parallel Decoding for dLLMs [77.24184219948337]
拡散大言語モデル(dLLM)は並列トークン予測と低推論遅延を提供する。
既存のオープンソースモデルは、パフォーマンスを確保するためにトークン長のデコードステップをほとんど必要としています。
高速サンプリングのためにdLLMs固有の並列性を解き放つシンプルで効果的な方法であるdParallelを導入する。
論文 参考訳(メタデータ) (2025-09-30T16:32:52Z) - CoVAE: Consistency Training of Variational Autoencoders [9.358185536754537]
本稿では,一貫性モデルからVAEアーキテクチャをトレーニングするための手法を取り入れた,新しい単一ステージ生成自動符号化フレームワークを提案する。
我々は,CoVAEが学習前の知識を使わずに,高品質なサンプルを1段階ないし数段階で生成できることを実証した。
提案手法は,自動エンコーディングと拡散型生成モデルのための統一的なフレームワークを提供し,一段階の高速自動エンコーディングのための実行可能な経路を提供する。
論文 参考訳(メタデータ) (2025-07-12T01:32:08Z) - DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。
本研究は,それらの認知過程と強化学習手法について考察する。
我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文 参考訳(メタデータ) (2025-06-25T17:35:47Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [60.407727995313074]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - Training and Inference Efficiency of Encoder-Decoder Speech Models [25.031622057759492]
我々は効率角に焦点を合わせ、これらの音声モデルを効率的に訓練しているかどうかを問う。
ミニバッチサンプリングにおける無視は、パディングに50%以上費やされていることを示す。
モデルアーキテクチャを調整してデコーダからエンコーダにモデルパラメータを転送すると、3倍の推論速度が得られます。
論文 参考訳(メタデータ) (2025-03-07T20:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。