論文の概要: DSB: Dynamic Sliding Block Scheduling for Diffusion LLMs
- arxiv url: http://arxiv.org/abs/2602.05992v1
- Date: Thu, 05 Feb 2026 18:41:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.12721
- Title: DSB: Dynamic Sliding Block Scheduling for Diffusion LLMs
- Title(参考訳): DSB:拡散LDMのための動的スライディングブロックスケジューリング
- Authors: Lizhuo Luo, Shenggui Li, Yonggang Wen, Tianwei Zhang,
- Abstract要約: 拡散大言語モデル(dLLM)は、テキスト生成の有望な代替手段として登場した。
広く使われている固定ブロック (naive) スケジュールは意味的難易度に非依存であり、品質と効率の両面での準最適戦略である。
本研究では,動的ブロックの剛性を克服するため,動的サイズを有するスライディングブロックを用いて,トレーニング不要なブロックスケジューリング手法であるDynamic Sliding Block (DSB)を提案する。
- 参考スコア(独自算出の注目度): 17.284485483927448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion large language models (dLLMs) have emerged as a promising alternative for text generation, distinguished by their native support for parallel decoding. In practice, block inference is crucial for avoiding order misalignment in global bidirectional decoding and improving output quality. However, the widely-used fixed, predefined block (naive) schedule is agnostic to semantic difficulty, making it a suboptimal strategy for both quality and efficiency: it can force premature commitments to uncertain positions while delaying easy positions near block boundaries. In this work, we analyze the limitations of naive block scheduling and disclose the importance of dynamically adapting the schedule to semantic difficulty for reliable and efficient inference. Motivated by this, we propose Dynamic Sliding Block (DSB), a training-free block scheduling method that uses a sliding block with a dynamic size to overcome the rigidity of the naive block. To further improve efficiency, we introduce DSB Cache, a training-free KV-cache mechanism tailored to DSB. Extensive experiments across multiple models and benchmarks demonstrate that DSB, together with DSB Cache, consistently improves both generation quality and inference efficiency for dLLMs. Code is released at https://github.com/lizhuo-luo/DSB.
- Abstract(参考訳): 拡散大言語モデル(dLLMs)は、テキスト生成の有望な代替として登場し、並列デコーディングのネイティブサポートによって区別されている。
実際、ブロック推論は、グローバルな双方向復号化における順序の不整合を回避し、出力品質を向上させるために重要である。
しかし、広く使われている固定ブロック(ナイーブ)スケジュールは意味的難易度に依存しないため、品質と効率の両面での準最適戦略となり、ブロック境界付近での容易な位置を遅らせながら、不確実な位置への早期のコミットメントを強制することができる。
本研究では,本研究で提案するブロックスケジューリングの限界を分析し,信頼性と効率的な推論を行う上で,スケジュールを意味的難易度に動的に適応させることの重要性を明らかにする。
そこで本研究では,動的ブロックの剛性を克服するために,動的サイズのスライディングブロックを用いたトレーニング不要なブロックスケジューリング手法であるDynamic Sliding Block (DSB)を提案する。
DSBキャッシュは,DSBに適したトレーニング不要なKVキャッシュ機構である。
複数のモデルとベンチマークにわたる大規模な実験により、DSBはDSBキャッシュとともに、dLLMの生成品質と推論効率を一貫して改善することを示した。
コードはhttps://github.com/lizhuo-luo/DSB.comで公開されている。
関連論文リスト
- Swordsman: Entropy-Driven Adaptive Block Partition for Efficient Diffusion Language Models [40.39823804602205]
Swordsmanは、拡散言語モデルのためのエントロピー駆動の適応ブロックワイドデコーディングフレームワークである。
隣接するトークン間のエントロピーシフトを特定してブロックを分割し、セマンティックまたは構文的構成境界との整合性を向上する。
トレーニングフリーのフレームワークとして、Swordsman氏は、幅広い評価で最先端のパフォーマンスを実演している。
論文 参考訳(メタデータ) (2026-02-04T10:27:49Z) - Causal Autoregressive Diffusion Language Model [70.7353007255797]
CARDは厳密な因果注意マスク内の拡散過程を再構成し、単一の前方通過で密集した1対1の監視を可能にする。
我々の結果は,CARDが並列生成のレイテンシの利点を解放しつつ,ARMレベルのデータ効率を実現することを示す。
論文 参考訳(メタデータ) (2026-01-29T17:38:29Z) - Deferred Commitment Decoding for Diffusion Language Models with Confidence-Aware Sliding Windows [33.361153168706444]
トレーニング不要なデコード戦略として,Dederred Commitment Decoding (DCD)を提案する。
DCDは、マスクされたトークンの上に信頼性を意識したスライディングウィンドウを保持しており、十分な文脈証拠が得られるまで、高い不確実性トークンを延期しながら、早期に低不確実性トークンを解決している。
実験の結果、DCDは固定ブロックベースの拡散法に比べて平均時間で1.39%向上し、最も顕著な改善は9.0%に達した。
論文 参考訳(メタデータ) (2026-01-05T12:57:33Z) - Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - AdaBlock-dLLM: Semantic-Aware Diffusion LLM Inference via Adaptive Block Size [7.442463267121892]
拡散に基づく大規模言語モデル (dLLM) は並列デコードに固有の能力で注目を集めている。
本稿では,セミARデコードにおける固定ブロックサイズの仮定に挑戦する最初の体系的な研究を提案する。
AdaBlock-dLLMは,実行中のブロックサイズを調整することで,ブロック境界とセマンティックステップを適応的に調整する,トレーニング不要のプラグイン・アンド・プレイスケジューラである。
論文 参考訳(メタデータ) (2025-09-30T15:53:56Z) - Fast-dLLM v2: Efficient Block-Diffusion LLM [64.38006546510337]
Fast-dLLM v2はブロック拡散言語モデルで、訓練済みのARモデルをdLLMに適応して並列テキストを生成する。
これは、Dream(580Bトークン)のようなフルアテンション拡散LDMと比較して、トレーニングデータの500倍の減少を示す。
論文 参考訳(メタデータ) (2025-09-30T14:40:18Z) - Block-wise Adaptive Caching for Accelerating Diffusion Policy [10.641633189595302]
Block-wise Adaptive Caching(BAC)は、中間動作特徴をキャッシュすることで拡散ポリシーを高速化する手法である。
BACは、ロボットベンチマークで無償で最大3倍の推論スピードアップを達成する。
論文 参考訳(メタデータ) (2025-06-16T13:14:58Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。