論文の概要: DAWN: Dependency-Aware Fast Inference for Diffusion LLMs
- arxiv url: http://arxiv.org/abs/2602.06953v1
- Date: Fri, 06 Feb 2026 18:51:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.540218
- Title: DAWN: Dependency-Aware Fast Inference for Diffusion LLMs
- Title(参考訳): DAWN:拡散LDMにおける依存性を考慮した高速推論
- Authors: Lizhuo Luo, Zhuoran Shi, Jiajun Luo, Zhi Wang, Shen Ren, Wenya Wang, Tianwei Zhang,
- Abstract要約: 拡散大言語モデル (dLLM) はテキスト生成の利点を示している。
既存の推論ソリューションは保守的な並列戦略を採用しており、かなりの効率性は未探索のままである。
本稿では,高速なdLLM推論のためのDAWNを提案する。
- 参考スコア(独自算出の注目度): 25.499655803741103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion large language models (dLLMs) have shown advantages in text generation, particularly due to their inherent ability for parallel decoding. However, constrained by the quality--speed trade-off, existing inference solutions adopt conservative parallel strategies, leaving substantial efficiency potential underexplored. A core challenge is that parallel decoding assumes each position can be filled independently, but tokens are often semantically coupled. Thus, the correct choice at one position constrains valid choices at others. Without modeling these inter-token dependencies, parallel strategies produce deteriorated outputs. Motivated by this insight, we propose DAWN, a training-free, dependency-aware decoding method for fast dLLM inference. DAWN extracts token dependencies and leverages two key motivations: (1) positions dependent on unmasked certain positions become more reliable, (2) simultaneously unmasking strongly coupled uncertain positions induces errors. Given those findings, DAWN leverages a dependency graph to select more reliable unmasking positions at each iteration, achieving high parallelism with negligible loss in generation quality. Extensive experiments across multiple models and datasets demonstrate that DAWN speedups the inference by 1.80-8.06x over baselines while preserving the generation quality. Code is released at https://github.com/lizhuo-luo/DAWN.
- Abstract(参考訳): 拡散大言語モデル (dLLMs) はテキスト生成において特に並列復号化に固有の能力のために優位性を示している。
しかし、品質と速度のトレードオフに制約され、既存の推論ソリューションは保守的な並行戦略を採用し、実質的な効率性の可能性は過小評価されている。
鍵となる課題は、並列復号化は各位置を独立して充足できると仮定するが、トークンは意味的に結合されることが多いことである。
したがって、ある位置における正しい選択は、他の位置における有効な選択を制約する。
これらのトークン間の依存関係をモデル化せずに、並列戦略は劣化した出力を生成する。
この知見に触発されたDAWNは,高速なdLLM推論のためのトレーニング不要で依存性を意識した復号法である。
DAWNはトークンの依存関係を抽出し、2つの主要なモチベーションを利用する:(1) 不正な特定の位置に依存する位置がより信頼性を増し、(2) 強く結合された不確実な位置をアンマキングすることでエラーを引き起こす。
これらの結果を踏まえ、DAWNは依存性グラフを利用して、各イテレーションでより信頼性の高いアンマキング位置を選択し、生成品質の無視可能な損失を伴う高い並列性を達成する。
複数のモデルやデータセットにわたる大規模な実験により、DAWNは生成品質を保ちながらベースラインを1.80-8.06倍高速化することを示した。
コードはhttps://github.com/lizhuo-luo/DAWN.comで公開されている。
関連論文リスト
- Parallelism and Generation Order in Masked Diffusion Language Models: Limits Today, Potential Tomorrow [30.201913054064363]
Masked Diffusion Language Modelsは並列トークン生成と任意の順序復号を約束する。
並列性強度と生成順序の2次元に沿ってMDLMの挙動を特徴付ける。
我々は、知識、推論、プログラミングにまたがる58のベンチマークで8つのメインストリームMDLMを評価した。
論文 参考訳(メタデータ) (2026-01-22T02:39:36Z) - Saber: An Efficient Sampling with Adaptive Acceleration and Backtracking Enhanced Remasking for Diffusion Language Model [98.35868970993232]
拡散言語モデル(DLM)は、支配的な自己回帰パラダイムに代わる強力で有望な選択肢として現れています。
コード生成における推論速度と出力品質の向上を実現するために,適応加速度を用いた効率的なサンプリングとバックトラック強化リマッシング(セイバー)を導入する。
論文 参考訳(メタデータ) (2025-10-20T23:38:12Z) - ParallelBench: Understanding the Trade-offs of Parallel Decoding in Diffusion LLMs [31.387806058620683]
拡散LDMは、並列復号による推論を劇的に加速する可能性への関心が高まっている。
既存の作業は、これらの固有の課題を概ね見落としており、標準ベンチマークによる評価は、並列復号による品質劣化を捉えるのに十分ではない。
そこで我々は,DLLMに特化して設計された最初のベンチマークであるParallelBenchを提案する。
我々の発見は、現在のスピード品質のトレードオフを克服できる革新的な復号法の必要性を強調している。
論文 参考訳(メタデータ) (2025-10-06T12:41:31Z) - Fast and Fluent Diffusion Language Models via Convolutional Decoding and Rejective Fine-tuning [23.58934174168992]
Autoregressive (AR)言語モデルでは、テキストを1つずつ生成することで、推論速度が制限される。
ハードセグメンテーションなしでデコードウインドウを狭める正規化法である畳み込み復号法(Conv)を提案する。
Rejecting Rule-based Fine-Tuning (R2FT)も導入しています。
論文 参考訳(メタデータ) (2025-09-18T17:48:21Z) - Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute [60.151643048803145]
本稿では,推論時の推論強度を連続的に制御するフレームワークであるフラクショナル推論を提案する。
提案手法は, より深い推論を伴う潜在ステアリングベクトルを抽出し, 調整可能なスケーリング係数で再適用することによって機能する。
GSM8K、MATH500、GPQAの実験により、フラクショナル推論は様々な推論タスクやモデルのパフォーマンスを一貫して改善することを示した。
論文 参考訳(メタデータ) (2025-06-18T21:15:59Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。