論文の概要: BlockBatch: Multi-Scale Consensus Decoding for Efficient Diffusion Language Model Inference
- arxiv url: http://arxiv.org/abs/2605.29233v1
- Date: Thu, 28 May 2026 01:48:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.583585
- Title: BlockBatch: Multi-Scale Consensus Decoding for Efficient Diffusion Language Model Inference
- Title(参考訳): BlockBatch: 効率的な拡散言語モデル推論のためのマルチスケール合意デコーディング
- Authors: Xiaoyou Wu, Cheng-Jhih Shih, Binfei Ji, Yong Liu, Yingyan, Lin,
- Abstract要約: 拡散言語モデルは、複数のトークン位置を並列に反復的に認知することでテキストを生成する。
小さなブロックはローカル条件を保存するが、多くのデノーミングステップを必要とするが、大きなブロックはより並列性を公開するが、早期のコミットとキャッシュエラーを蓄積することができる。
バッチ転送パス内で同じリクエストに対して複数のブロックサイズのブランチを実行する,トレーニング不要なオンライン推論フレームワークであるBlockBatchを提案する。
- 参考スコア(独自算出の注目度): 8.885225944160021
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion language models (dLLMs) generate text by iteratively denoising multiple token positions in parallel, offering an attractive alternative to strictly autoregressive decoding. In practice, however, block-wise dLLM inference exposes a difficult granularity trade-off: small blocks preserve local conditioning but require many denoising steps, whereas large blocks expose more parallelism but can make premature commitments and accumulate cache error. Existing acceleration methods typically choose a single block size per request, leaving the complementarity among block sizes unused. We show that block size itself is a useful branching dimension. Different block sizes induce related but non-identical KV-cache trajectories: branches often share an initial prefix, bifurcate at semantically decisive positions, and later agree on syntactically lightweight tokens. Motivated by this structure, we propose BlockBatch, a training-free online inference framework that executes multiple block-size branches for the same request inside a batched forward pass. BlockBatch coordinates these branches through confidence-gated token merging, leader-based synchronization, and periodic full-sequence refreshes that re-anchor local block updates to a globally consistent KV state. Across 3 representative dLLMs and 4 datasets, BlockBatch reduces denoising NFEs by 26.6\% on average and achieves a 1.33$\times$ average end-to-end speedup over Fast-dLLM while preserving accuracy. These results identify block-size diversity as a practical and previously underexplored axis for branch-parallel dLLM inference.
- Abstract(参考訳): 拡散言語モデル(dLLMs)は、複数のトークン位置を並列に反復的に記述することでテキストを生成する。
しかし、実際にはブロックワイドのdLLM推論は、局所的な条件を保ちながら多くのデノナイズステップを必要とするが、大きなブロックはより並列性を公開するが、早期のコミットやキャッシュエラーの蓄積が可能である。
既存のアクセラレーション手法は、通常、要求毎に1ブロックサイズを選択し、ブロックサイズ間の相補性を未使用のまま残す。
ブロックサイズ自体が有用な分岐次元であることを示す。
ブロックサイズの違いは、関連するが同一でないKV-cache軌道を誘導する:枝はしばしば初期接頭辞を共有し、意味的に決定的な位置で分岐し、後に構文的に軽量なトークンに同意する。
この構造に動機づけられたBlockBatchは、バッチ転送パス内で同じリクエストに対して複数のブロックサイズのブランチを実行する、トレーニング不要なオンライン推論フレームワークである。
BlockBatchは、信頼されたトークンのマージ、リーダベースの同期、周期的なフルシーケンス更新を通じてこれらのブランチをコーディネートし、ローカルブロックを一貫したKV状態に更新する。
3つの代表的dLLMと4つのデータセットにわたって、BlockBatchはNFEを平均26.6\%削減し、精度を維持しながらFast-dLLMよりも平均1.33$\times$エンドツーエンドのスピードアップを達成する。
これらの結果は,ブロックサイズの多様性を分岐並列dLLM推定のための実用的かつ未探索の軸として同定する。
関連論文リスト
- Prefix-Adaptive Block Diffusion for Efficient Document Recognition [52.15352911463151]
ブロック拡散モデル(BDM)は並列生成、フレキシブルな出力、KVキャッシュをサポートし、効率的な文書解析を約束する。
本稿では,前置詞から接尾辞への因果表記に代えて,ブロック内双方向化を代替するPrefix-Block Diffusion Model (PA-BDM)を提案する。
実験の結果、3B PA-BDMはいくつかのベンチマークで高い認識スコアを達成し、2.5B MinerU-Diffusionに対して推論スループットを71.6%向上した。
論文 参考訳(メタデータ) (2026-05-16T07:50:13Z) - Towards Generalization of Block Attention via Automatic Segmentation and Block Distillation [61.19473093799777]
ブロックアテンションは、Retrieval-Augmented Generation (RAG)のような長期コンテキストシナリオにおけるKVキャッシュの再利用を改善することができる。
しかし、入力テキストを意味のある自己完結ブロックに分割することの難しさと、性能低下のリスクを負う既存のブロック微調整手法の非効率性である。
ブロック微細チューニングよりも効率的な訓練フレームワークであるブロック蒸留を提案し, 凍結したフルアテンション教師モデルを用いて, ブロックアテンション学生を指導する。
論文 参考訳(メタデータ) (2026-05-15T12:51:32Z) - Break the Block: Dynamic-size Reasoning Blocks for Diffusion Large Language Models via Monotonic Entropy Descent with Reinforcement Learning [41.859993506122194]
固定サイズのブロック世代は、効果的で一貫性のある推論にとって重要なボトルネックである。
本稿では,モノトニック・エントロピー・ディフレキティブ(モノトニック・エントロピー・ディフレキティブ)を用いて動的サイズ推論ブロックを学習する,dLLMのための新しい学習後フレームワークb1を提案する。
論文 参考訳(メタデータ) (2026-05-04T06:17:49Z) - DSB: Dynamic Sliding Block Scheduling for Diffusion LLMs [17.284485483927448]
拡散大言語モデル(dLLM)は、テキスト生成の有望な代替手段として登場した。
広く使われている固定ブロック (naive) スケジュールは意味的難易度に非依存であり、品質と効率の両面での準最適戦略である。
本研究では,動的ブロックの剛性を克服するため,動的サイズを有するスライディングブロックを用いて,トレーニング不要なブロックスケジューリング手法であるDynamic Sliding Block (DSB)を提案する。
論文 参考訳(メタデータ) (2026-02-05T18:41:38Z) - AdaBlock-dLLM: Semantic-Aware Diffusion LLM Inference via Adaptive Block Size [7.442463267121892]
拡散に基づく大規模言語モデル (dLLM) は並列デコードに固有の能力で注目を集めている。
本稿では,セミARデコードにおける固定ブロックサイズの仮定に挑戦する最初の体系的な研究を提案する。
AdaBlock-dLLMは,実行中のブロックサイズを調整することで,ブロック境界とセマンティックステップを適応的に調整する,トレーニング不要のプラグイン・アンド・プレイスケジューラである。
論文 参考訳(メタデータ) (2025-09-30T15:53:56Z) - Blockwise SFT for Diffusion Language Models: Reconciling Bidirectional Attention and Autoregressive Decoding [60.06816407728172]
離散拡散言語モデルは、テキスト生成に強い可能性を示している。
半自己回帰推論による微調整ミスアライメントの標準化
我々は、応答を固定サイズブロックに分割するBlockwise SFTを提案する。
論文 参考訳(メタデータ) (2025-08-27T02:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。