論文の概要: Multi-Token Residual Prediction
- arxiv url: http://arxiv.org/abs/2605.18817v1
- Date: Tue, 12 May 2026 11:40:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 01:01:02.788383
- Title: Multi-Token Residual Prediction
- Title(参考訳): マルチトークン残差予測
- Authors: Yufeng Xu, Zishuo Bao, Qian Wang, Zeshen Zhang, Haoqi Zhang, Bowen Peng, Ang Li, Rahul Chalamala, Yucheng Lu,
- Abstract要約: 拡散言語モデル(Diffusion Language Models)は、マスク付きトークンシーケンスを反復的にデノベートすることでテキストを生成する。
本稿では,依存性を認識可能なマルチトークンデノーミングを実現する軽量モジュールであるMulti-token Residual Prediction (MRP)を紹介する。
MRPは、バックボーンの隠れた状態からのステップ間の残留を予測し、バックボーン毎のトークンを、コストのごく一部で効果的に前方にデノベートする。
- 参考スコア(独自算出の注目度): 21.234596379356724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Language Models (DLMs) generate text by iteratively denoising masked token sequences, offering a tradeoff between parallelism and quality compared to autoregressive models. In current practice, the number of tokens decoded per step is controlled by a confidence threshold, and quality degrades monotonically as more tokens are denoised per step. We introduce Multi-token Residual Prediction (MRP), a lightweight module that enables dependency-aware multi-token denoising within a single backbone forward pass. MRP exploits a key property of the denoising process: the logit distributions at adjacent denoising steps are remarkably similar. Rather than running the backbone a second time to obtain the next-step logits, MRP predicts the residual between steps from the backbone's hidden states, effectively denoising more tokens per backbone forward at a fraction of the cost. We deploy MRP in two inference modes: direct decoding, which uses the corrected logits without verification for a tunable quality--speed tradeoff; and speculative decoding, which verifies MRP's proposals against the backbone for lossless acceleration. Experiments on SDAR models at the 1.7B, 4B, and 8B scales across reasoning and code generation benchmarks demonstrate up to $1.42\times$ lossless speedup in SGLang.
- Abstract(参考訳): Diffusion Language Models (DLMs) は、自動回帰モデルと比較して並列性と品質のトレードオフを提供するマスク付きトークンシーケンスを反復的にデノベートすることでテキストを生成する。
現在の方法では、ステップ毎にデコードされるトークンの数は信頼しきい値によって制御され、ステップ毎により多くのトークンが識別されるため、品質は単調に低下する。
本稿では,単一のバックボーンフォワードパス内で依存性を認識可能なマルチトークン記述を可能にする軽量モジュールであるMulti-token Residual Prediction (MRP)を紹介する。
MRPはデノナイジングプロセスの重要な性質を生かし、隣接するデノナイジングステップにおけるロジット分布は著しく類似している。
バックボーンを2回実行して次のステップのロジットを得る代わりに、MPPはバックボーンの隠れた状態からのステップ間の残余を予測する。
我々は2つの推論モードでMPPをデプロイする: 直復号(Direct decoding) - 調整不能な品質-高速トレードオフを検証せずに修正ログを使用する - と投機的復号(Speculative decoding) - ロスレスアクセラレーションのための背骨に対するMPPの提案を検証する。
1.7B、4B、および8BのSDARモデルに対する実験では、SGLangで1.42\times$ Losless speedupが証明された。
関連論文リスト
- Roll Out and Roll Back: Diffusion LLMs are Their Own Efficiency Teachers [76.15132587294862]
Wide-In, Narrow-Out (WINO) は、リボッキング可能な並列生成を可能にするトレーニング不要の復号アルゴリズムである。
WINO+は、WINOが生成した検証された認知軌道をモデルパラメータに注入し、トレーニングを効率的な推論と整合させる。
LLaDAとMMaDAの実験では、WINOは品質と効率の両方を改善し、WINO+はこの進歩をさらに強化している。
論文 参考訳(メタデータ) (2026-05-16T11:27:40Z) - DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention [2.7422645382944935]
そこで我々はDyLLMを提案する。DyLLMは正規トークンのみを選択的に計算することでデコーディングを高速化する学習自由推論フレームワークである。
DyLLMは様々な推論とコード生成ベンチマークで最大9.6倍のスループットを実現している。
論文 参考訳(メタデータ) (2026-03-09T07:02:01Z) - Learn from Your Mistakes: Self-Correcting Masked Diffusion Models [31.536464269884103]
マスク付き拡散モデル(MDM)は自己回帰モデルに代わる有望な代替品として登場している。
本研究では、モデルにアンマキングと修正の両方を行うよう訓練するフレームワークを提案する。
トレーニングとサンプリングの手法をProSeCo(Progressive Self-Correction)と名付けました。
論文 参考訳(メタデータ) (2026-02-12T05:17:31Z) - Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models [6.4453302264198165]
拡散フレームワークとモデルスケジューリングの柔軟性を利用して、より小さなMDLMがデノナイジングステップのサブセットでフルモデルを置き換える。
その結果,早期・後期段階は中段よりもかなり頑健であり,FLOPは最大17%減少することがわかった。
提案手法は, MDLMサンプリングを著しく高速化し, 生成品質を保ちながら, 簡易かつアーキテクチャに依存しないスケジューリング規則を適用できることを示唆する。
論文 参考訳(メタデータ) (2026-02-04T13:04:58Z) - Residual Context Diffusion Language Models [90.07635240595926]
Residual Context Diffusion (RCD) は、捨てられたトークン表現をコンテキスト残留に変換し、次のデノイングステップでそれらを注入するモジュールである。
RCDは、最小限の計算オーバーヘッドで、5-10ポイントの精度でフロンティアdLLMを一貫して改善する。
論文 参考訳(メタデータ) (2026-01-30T13:16:32Z) - Diffusion Language Models Know the Answer Before Decoding [56.96815863705218]
拡散言語モデル (DLM) は自己回帰的アプローチの代替として登場した。
我々の研究は、DLMの早期回答収束の見過ごされた特性を強調し、活用する。
Prophetは、早期コミット復号を可能にするトレーニングフリーの高速復号化パラダイムである。
論文 参考訳(メタデータ) (2025-08-27T15:40:25Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - FlashDLM: Accelerating Diffusion Language Model Inference via Efficient KV Caching and Guided Diffusion [22.207275433870937]
拡散言語モデルは並列トークン生成と本質的に双方向性を提供する。
最先端拡散モデル(ドリーム7B、LLaDA 8Bなど)は推論が遅い。
我々は,トークンアンマキングを監督するために,軽量な事前学習型自己回帰モデルを用いた学習自由度法であるガイドド拡散を導入する。
論文 参考訳(メタデータ) (2025-05-27T17:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。