Fugu-MT 論文翻訳(概要): Accelerating Diffusion Language Model Inference via Efficient KV Caching and Guided Diffusion

論文の概要: Accelerating Diffusion Language Model Inference via Efficient KV Caching and Guided Diffusion

arxiv url: http://arxiv.org/abs/2505.21467v1
Date: Tue, 27 May 2025 17:39:39 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-28 17:05:58.836307
Title: Accelerating Diffusion Language Model Inference via Efficient KV Caching and Guided Diffusion
Title（参考訳）: 効率的なKVキャッシングと誘導拡散による拡散言語モデル推論の高速化
Authors: Zhanqiu Hu, Jian Meng, Yash Akhauri, Mohamed S. Abdelfattah, Jae-sun Seo, Zhiru Zhang, Udit Gupta,
Abstract要約: 拡散言語モデルは並列トークン生成と本質的に双方向性を提供する。最先端拡散モデル(ドリーム7B、LLaDA 8Bなど)は推論が遅い。我々は,トークンアンマキングを監督するために,軽量な事前学習型自己回帰モデルを用いた学習自由度法であるガイドド拡散を導入する。拡散言語モデルが初めて、広く採用されている自己回帰モデルと同等かつ高速なレイテンシを実現する。
参考スコア（独自算出の注目度）: 16.99620863197586
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion language models offer parallel token generation and inherent bidirectionality, promising more efficient and powerful sequence modeling compared to autoregressive approaches. However, state-of-the-art diffusion models (e.g., Dream 7B, LLaDA 8B) suffer from slow inference. While they match the quality of similarly sized Autoregressive (AR) Models (e.g., Qwen2.5 7B, Llama3 8B), their iterative denoising requires multiple full-sequence forward passes, resulting in high computational costs and latency, particularly for long input prompts and long-context scenarios. Furthermore, parallel token generation introduces token incoherence problems, and current sampling heuristics suffer from significant quality drops with decreasing denoising steps. We address these limitations with two training-free techniques. First, we propose FreeCache, a Key-Value (KV) approximation caching technique that reuses stable KV projections across denoising steps, effectively reducing the computational cost of DLM inference. Second, we introduce Guided Diffusion, a training-free method that uses a lightweight pretrained autoregressive model to supervise token unmasking, dramatically reducing the total number of denoising iterations without sacrificing quality. We conduct extensive evaluations on open-source reasoning benchmarks, and our combined methods deliver up to a 34x end-to-end speedup without compromising accuracy. For the first time, diffusion language models achieve a comparable and even faster latency as the widely adopted autoregressive models. Our work successfully paved the way for scaling up the diffusion language model to a broader scope of applications across different domains.
Abstract（参考訳）: 拡散言語モデルは、並列トークン生成と本質的に双方向性を提供し、自己回帰アプローチよりも効率的で強力なシーケンスモデリングを約束する。しかし、最先端拡散モデル(例えばドリーム7B、LLaDA8B)は推論が遅い。同様のサイズのAutoregressive (AR)モデル(例えば Qwen2.5 7B, Llama3 8B)の品質にマッチするが、反復的復調には複数のフルシーケンスの前方通過が必要であり、特に長い入力プロンプトや長いコンテキストシナリオにおいて高い計算コストとレイテンシをもたらす。さらに、並列トークン生成はトークンの非コヒーレンス問題を導入し、現在のサンプリングヒューリスティックはデノナイジングステップを減少させ、大幅な品質低下に悩まされる。これらの制限をトレーニング不要の2つのテクニックで解決する。まず,鍵値(KV)近似キャッシング技術であるFreeCacheを提案する。この手法は,段階的に安定なKVプロジェクションを再利用し,DLM推論の計算コストを効果的に削減する。第二に、ガイドド拡散(Guid Diffusion)は、軽量な事前学習型自己回帰モデルを用いてトークンのアンマキングを監督し、品質を犠牲にすることなくデノナイジングイテレーションの総数を劇的に削減する訓練自由な手法である。我々はオープンソースの推論ベンチマークで広範囲な評価を行い、組み合わせた手法は、精度を損なうことなく、エンドツーエンドのスピードアップを最大34倍に向上させる。拡散言語モデルが初めて、広く採用されている自己回帰モデルと同等かつ高速なレイテンシを実現する。私たちの研究は、拡散言語モデルをさまざまなドメインにわたるアプリケーションの範囲に拡大する方法をうまく開発しました。

関連論文リスト

Beyond Fixed: Variable-Length Denoising for Diffusion Large Language Models [74.15250326312179]
拡散大言語モデルは効率的な並列生成とグローバルモデリングを提供する。 DLLMの主流の応用は、静的に事前定義された生成長の必要性によって妨げられている。 DAEDALは,動的適応長拡張を可能にする新しい学習自由化戦略である。
論文参考訳（メタデータ） (2025-08-01T17:56:07Z)
Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文参考訳（メタデータ） (2025-05-28T17:39:15Z)
Communication-Efficient Diffusion Denoising Parallelization via Reuse-then-Predict Mechanism [18.655659400456848]
拡散モデルは、画像、ビデオ、音声合成を含む様々なモードにわたる強力な生成モデルのクラスとして登場した。本論文では, 拡散推論を並列化する手法である textbfParaStep を提案する。 ParaStep は SVD の textbf3.88$times$、CogVideoX-2b の textbf2.43$times$、textbf6.56$times
論文参考訳（メタデータ） (2025-05-20T06:58:40Z)
AB-Cache: Training-Free Acceleration of Diffusion Models via Adams-Bashforth Cached Feature Reuse [19.13826316844611]
拡散モデルは生成的タスクにおいて顕著に成功したが、反復的認知過程は推論を遅くする。本稿では,第2次Adams-Bashforth法を用いて認知過程を解析することにより理論的に理解する。キャッシュされた結果を直接再利用する代わりに,拡散モデルに対するキャッシングに基づく新しい高速化手法を提案する。
論文参考訳（メタデータ） (2025-04-13T08:29:58Z)
One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文参考訳（メタデータ） (2025-03-09T09:39:57Z)
Generalized Interpolating Discrete Diffusion [65.74168524007484]
仮面拡散はその単純さと有効性のために一般的な選択である。離散拡散過程を補間する一般族の理論的バックボーンを導出する。 GIDDのフレキシビリティをエクスプロイトし、マスクと均一ノイズを組み合わせたハイブリッドアプローチを探索する。
論文参考訳（メタデータ） (2025-03-06T14:30:55Z)
Optimizing for the Shortest Path in Denoising Diffusion Model [8.884907787678731]
最短経路拡散モデル(ShortDF)は、復調誤差の最小化を目的とした最短経路問題である。複数の標準ベンチマークの実験により、ShortDFは拡散時間(またはステップ)を大幅に短縮することが示された。この研究は、インタラクティブな拡散ベースのアプリケーションへの道を開き、高速なデータ生成の基礎を確立します。
論文参考訳（メタデータ） (2025-03-05T08:47:36Z)
CAT Pruning: Cluster-Aware Token Pruning For Text-to-Image Diffusion Models [5.406829638216823]
拡散モデルは、特にテキスト対画像合成の領域において、生成タスクに革命をもたらした。しかし、反復的なデノゲーションプロセスは、かなりの計算資源を必要とする。本稿では、トークンレベルのプルーニングとキャッシュ技術を統合して、この計算課題に対処する新しい加速戦略を提案する。
論文参考訳（メタデータ） (2025-02-01T13:46:02Z)
Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
任意の制約下で高速かつ高品質な生成を可能にするアルゴリズムを提案する。推測中、ノイズの多い画像上で計算された勾配更新と、最終的なクリーンな画像で計算されたアップデートとを交換できる。我々のアプローチは、最先端のトレーニングフリー推論アプローチに匹敵するか、超越した結果をもたらす。
論文参考訳（メタデータ） (2024-10-24T14:52:38Z)
Adv-KD: Adversarial Knowledge Distillation for Faster Diffusion Sampling [2.91204440475204]
拡散確率モデル(DPM)は、深層生成モデルの強力なクラスとして登場した。それらは、サンプル生成中にシーケンシャルなデノイングステップに依存している。モデルアーキテクチャに直接位相を分解する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-31T08:19:44Z)
BOOT: Data-free Distillation of Denoising Diffusion Models with Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2023-06-08T20:30:55Z)
A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文参考訳（メタデータ） (2023-04-10T17:58:42Z)
DiffusionBERT: Improving Generative Masked Language Models with Diffusion Models [81.84866217721361]
DiffusionBERTは離散拡散モデルに基づく新しい生成マスク付き言語モデルである。本稿では,各ステップに付加される雑音の度合いを制御する前方拡散プロセスのための新しいノイズスケジュールを提案する。非条件テキスト生成の実験では、DiffusionBERTは既存のテキスト拡散モデルよりも大幅に改善されている。
論文参考訳（メタデータ） (2022-11-28T03:25:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。