論文の概要: DPad: Efficient Diffusion Language Models with Suffix Dropout
- arxiv url: http://arxiv.org/abs/2508.14148v1
- Date: Tue, 19 Aug 2025 16:56:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.230838
- Title: DPad: Efficient Diffusion Language Models with Suffix Dropout
- Title(参考訳): DPad: 接尾辞をドロップアウトした効率的な拡散言語モデル
- Authors: Xinhua Chen, Sitao Huang, Cong Guo, Chiyue Wei, Yintao He, Jianyi Zhang, Hai "Hellen" Li, Yiran Chen,
- Abstract要約: Diffusion Scratchpad (DPad) は、近くの接尾辞の小さなセットに注意を向ける訓練不要の手法である。
DPad は (i) 固定長の接尾辞窓を維持するスライディングウィンドウ, (ii) 距離デカイドロップアウト, (ii) 注意計算の前に遠接辞トークンを決定的に除去する2つの戦略を統合している。
- 参考スコア(独自算出の注目度): 10.532783286726325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based Large Language Models (dLLMs) parallelize text generation by framing decoding as a denoising process, but suffer from high computational overhead since they predict all future suffix tokens at each step while retaining only a small fraction. We propose Diffusion Scratchpad (DPad), a training-free method that restricts attention to a small set of nearby suffix tokens, preserving fidelity while eliminating redundancy. DPad integrates two strategies: (i) a sliding window, which maintains a fixed-length suffix window, and (ii) distance-decay dropout, which deterministically removes distant suffix tokens before attention computation. This simple design is compatible with existing optimizations such as prefix caching and can be implemented with only a few lines of code. Comprehensive evaluations across multiple benchmarks on LLaDA-1.5 and Dream models demonstrate that DPad delivers up to $\mathbf{61.4\times}$ speedup over vanilla dLLMs while maintaining comparable accuracy, highlighting its potential for efficient and scalable long-sequence inference. Our code is available at https://github.com/Crys-Chen/DPad.
- Abstract(参考訳): 拡散に基づく大規模言語モデル (dLLMs) は、復号化プロセスとしてフレーミングデコードによってテキスト生成を並列化するが、各ステップで将来の接尾辞トークンを予測し、わずかしか保持しないため、高い計算オーバーヘッドに悩まされる。
そこで我々はDiffusion Scratchpad (DPad) を提案する。DPadは、近接する接尾辞の小さな集合に注意を向け、冗長性を排除しつつ忠実さを保っている。
DPadは2つの戦略を統合している。
i) 固定長の接尾辞窓を保持するスライディングウィンドウ、及び
(II) 注意計算の前に遠接点トークンを決定的に除去する距離遅延ドロップアウト。
このシンプルな設計はプレフィックスキャッシュのような既存の最適化と互換性があり、ほんの数行のコードで実装できる。
LLaDA-1.5とDreamモデルにおける複数のベンチマークの総合的な評価は、DPadがバニラdLLMを最大$\mathbf{61.4\times}$スピードアップし、同等の精度を維持しながら、効率よくスケーラブルなロングシーケンス推論の可能性を強調していることを示している。
私たちのコードはhttps://github.com/Crys-Chen/DPad.comで公開されています。
関連論文リスト
- Diffusion LLMs Can Do Faster-Than-AR Inference via Discrete Diffusion Forcing [14.22753953706955]
Diffusion Large Language Models (dLLMs) は、テキスト生成のための自動回帰(AR) LLM に代わる有望な代替品として登場した。
本稿では、離散拡散強制(D2F)と呼ばれる単純かつ効果的な戦略に基づいて、この障壁を破る。
このようにして、バニラdLLMは効率的な推論のためにAR拡散ハイブリッドパラダイムに再構成される。
論文 参考訳(メタデータ) (2025-08-08T04:51:37Z) - Rectified Sparse Attention [61.7702154360081]
効率的なロングシーケンス生成は、大規模言語モデルにとって重要な課題である。
本稿では,ブロックスパースアテンションと周期的な密度補正を組み合わせた簡易かつ効果的な方法であるRectified Sparse Attention (ReSA)を提案する。
数学推論、言語モデリング、検索タスクにわたる実験は、ReSAがほぼ無作為な生成品質を達成することを示す。
論文 参考訳(メタデータ) (2025-06-04T16:01:48Z) - Scaling Embedding Layers in Language Models [52.47659840377581]
SCONEは入力埋め込み層を拡張し、言語モデルの性能を向上させる新しい方法である。
埋め込みは各入力トークンに対してコンテキスト化された表現を提供し、トレーニング中に別のモデルで学習する。
SCONEは2つの新しいスケーリング戦略を実現する。$n$-gramの埋め込み数を増やし、それらを学ぶために使用するモデルをスケーリングする。
論文 参考訳(メタデータ) (2025-02-03T18:59:32Z) - SuffixDecoding: Extreme Speculative Decoding for Emerging AI Applications [9.143856130336783]
投機的復号化は、大規模言語モデル(LLM)推論の遅延を低減するために広く採用されている。
エージェントフレームワークは、同様のサブタスクを実行するマルチエージェントパイプラインや、アウトプットを反復的に拡張するセルフリファインメントループなど、反復的な推論要求を送信します。
本稿では,効率的な接尾辞木を用いて長いトークン列をキャッシュする新しい手法であるemphSuffixDecodingを紹介する。
論文 参考訳(メタデータ) (2024-11-07T18:49:33Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - EMS-SD: Efficient Multi-sample Speculative Decoding for Accelerating Large Language Models [40.651650382105636]
Vanillaメソッドは、サンプル間で新しいトークンの数が一貫していることを保証するために、パディングトークンを追加する。
本稿では,メモリや計算のオーバーヘッドを増大させることなく,異なるサンプルで受け入れられる不整合トークンの問題を解決する手法を提案する。
提案手法は, パディングトークンを追加することなく, 異なるサンプルの予測トークンが矛盾する状況に対処できる。
論文 参考訳(メタデータ) (2024-05-13T08:24:21Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Boosting Continuous Sign Language Recognition via Cross Modality
Augmentation [135.30357113518127]
連続手話認識は不整合のビデオテキストペアを扱う。
クロスモーダル拡張を用いた新しいアーキテクチャを提案する。
提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
論文 参考訳(メタデータ) (2020-10-11T15:07:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。