論文の概要: Wide-In, Narrow-Out: Revokable Decoding for Efficient and Effective DLLMs
- arxiv url: http://arxiv.org/abs/2507.18578v1
- Date: Thu, 24 Jul 2025 16:51:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:44.21305
- Title: Wide-In, Narrow-Out: Revokable Decoding for Efficient and Effective DLLMs
- Title(参考訳): 広義、狭義:効率的なDLLMのための取り消し可能なデコーディング
- Authors: Feng Hong, Geng Yu, Yushi Ye, Haicheng Huang, Huangjie Zheng, Ya Zhang, Yanfeng Wang, Jiangchao Yao,
- Abstract要約: Diffusion Large Language Models (DLLM) は、自動回帰モデルの魅力的な代替品として登場した。
既存のDLLMは、高速な並列復号化によって性能が著しく低下する、厳しい品質と速度のトレードオフに悩まされている。
本稿では,DLLMの復号化を可能にするトレーニング不要復号アルゴリズムであるWide-In, Narrow-Out (WINO)を紹介する。
- 参考スコア(独自算出の注目度): 37.94110023657587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Large Language Models (DLLMs) have emerged as a compelling alternative to Autoregressive models, designed for fast parallel generation. However, existing DLLMs are plagued by a severe quality-speed trade-off, where faster parallel decoding leads to significant performance degradation. We attribute this to the irreversibility of standard decoding in DLLMs, which is easily polarized into the wrong decoding direction along with early error context accumulation. To resolve this, we introduce Wide-In, Narrow-Out (WINO), a training-free decoding algorithm that enables revokable decoding in DLLMs. WINO employs a parallel draft-and-verify mechanism, aggressively drafting multiple tokens while simultaneously using the model's bidirectional context to verify and re-mask suspicious ones for refinement. Verified in open-source DLLMs like LLaDA and MMaDA, WINO is shown to decisively improve the quality-speed trade-off. For instance, on the GSM8K math benchmark, it accelerates inference by 6$\times$ while improving accuracy by 2.58%; on Flickr30K captioning, it achieves a 10$\times$ speedup with higher performance. More comprehensive experiments are conducted to demonstrate the superiority and provide an in-depth understanding of WINO.
- Abstract(参考訳): Diffusion Large Language Models (DLLM) は、高速並列生成用に設計された自動回帰モデルの魅力的な代替品として登場した。
しかし、既存のDLLMは、高速な並列復号化によって性能が著しく低下する、厳しい品質と速度のトレードオフに悩まされている。
これはDLLMにおける標準復号化の不可逆性によるもので、誤復号化方向や初期エラーコンテキストの蓄積に容易に対応できる。
そこで本研究では,DLLMの復号化を可能にする学習自由復号アルゴリズムであるWide-In, Narrow-Out (WINO)を導入する。
WINOは並列のドラフト・アンド・バリデーション機構を採用し、複数のトークンを積極的にドラフトし、同時にモデルの双方向コンテキストを使用して不審なトークンの検証と再マスクを行う。
LLaDAやMMaDAのようなオープンソースのDLLMで検証されたWINOは、品質と速度のトレードオフを決定的に改善する。
例えば、GSM8Kの数学ベンチマークでは、推論を6$\times$で高速化し、精度を2.58%向上させ、Flickr30Kのキャプションでは、より高いパフォーマンスで10$\times$スピードアップを達成する。
より包括的な実験により、WINOの優位性を実証し、より深い理解を提供する。
関連論文リスト
- Accelerating Diffusion LLMs via Adaptive Parallel Decoding [50.9948753314669]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z) - Constrained Decoding with Speculative Lookaheads [13.085794785286305]
我々は投機的ルックアヘッド(CSL)を用いた制約付き復号法を提案する。
CSLは、最近提案された投機的復号化のアイデアによって動機付けられている。
3つのLLMファミリーを持つ2つの制約デコードタスクにおけるCDSLの評価を行い、CDLHの2.2倍から12.15倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-12-09T22:29:57Z) - Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [55.0194604505437]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。
本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文 参考訳(メタデータ) (2024-08-10T21:24:25Z) - Think Big, Generate Quick: LLM-to-SLM for Fast Autoregressive Decoding [15.723047976314751]
大規模言語モデル(LLM)は、実際にはユビキタスなものとなり、翻訳、要約、命令の追従といった生成タスクに広く利用されている。
本稿では,異なるサイズの言語モデルを組み合わせて,自己回帰復号化の効率を高めるハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T18:59:28Z) - Break the Sequential Dependency of LLM Inference Using Lookahead
Decoding [27.87483106859749]
Lookahead decodingは、大規模言語モデル(LLM)のための正確な並列デコーディングアルゴリズムである。
実装により,MT-benchでは1.8倍,コード補完タスクでは4倍まで高速に自動回帰復号を行うことができる。
論文 参考訳(メタデータ) (2024-02-03T06:37:50Z) - Speculative Contrastive Decoding [55.378200871224074]
大規模言語モデル(LLM)は、言語タスクにおいて例外的な性能を示すが、その自動回帰推論は高い計算要求のために制限され、露出バイアスにより準最適である。
投機的復号法とコントラスト的復号法に着想を得て, 単純かつ強力な復号法である投機的コントラスト的復号法(SCD)を導入する。
論文 参考訳(メタデータ) (2023-11-15T14:15:30Z) - Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster [61.83949316226113]
FastCoTは並列デコーディングに基づくモデルに依存しないフレームワークである。
我々は、FastCoTが通常のアプローチと比較して、無視できる性能低下だけで、推論時間を20%近く削減できることを示します。
論文 参考訳(メタデータ) (2023-11-14T15:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。