論文の概要: Beyond Scattered Acceptance: Fast and Coherent Inference for DLMs via Longest Stable Prefixes
- arxiv url: http://arxiv.org/abs/2603.05454v1
- Date: Thu, 05 Mar 2026 18:25:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.367881
- Title: Beyond Scattered Acceptance: Fast and Coherent Inference for DLMs via Longest Stable Prefixes
- Title(参考訳): 散乱アクセプタンスを超えたDLMの高速でコヒーレントな推論
- Authors: Pengxiang Li, Joey Tsai, Hongwei Xue, Kunyu Shi, Shilin Yan,
- Abstract要約: Longestahead Prefix(LSP)スケジューラは、モノリシックプレフィックスの吸収に基づく、トレーニング不要でモデルに依存しない推論パラダイムである。
LSPは1つのフォワードパスを介してトークンの安定性を評価し、安定な予測の連続した左整列ブロックを動的に識別する。
原子のコミットメントの前に、言語や構造的受容の境界を画定する。
- 参考スコア(独自算出の注目度): 10.877713536966601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Language Models (DLMs) promise highly parallel text generation, yet their practical inference speed is often bottlenecked by suboptimal decoding schedulers. Standard approaches rely on 'scattered acceptance'-committing high confidence tokens at disjoint positions throughout the sequence. This approach inadvertently fractures the Key-Value (KV) cache, destroys memory locality, and forces the model into costly, repeated repairs across unstable token boundaries. To resolve this, we present the Longest Stable Prefix (LSP) scheduler, a training-free and model-agnostic inference paradigm based on monolithic prefix absorption. In each denoising step, LSP evaluates token stability via a single forward pass, dynamically identifies a contiguous left-aligned block of stable predictions, and snaps its boundary to natural linguistic or structural delimiters before an atomic commitment. This prefix-first topology yields dual benefits: systemically, it converts fragmented KV cache updates into efficient, contiguous appends; algorithmically, it preserves bidirectional lookahead over a geometrically shrinking active suffix, drastically reducing token flip rates and denoiser calls. Extensive evaluations on LLaDA-8B and Dream-7B demonstrate that LSP accelerates inference by up to 3.4x across rigorous benchmarks including mathematical reasoning, code generation, multilingual (CJK) tasks, and creative writing while matching or slightly improving output quality. By fundamentally restructuring the commitment topology, LSP bridges the gap between the theoretical parallelism of DLMs and practical hardware efficiency.
- Abstract(参考訳): 拡散言語モデル (DLM) は高い並列テキスト生成を約束するが、その実際の推論速度は、しばしば準最適復号スケジューラによってボトルネックとなる。
標準的なアプローチは、シーケンス全体の不整合位置で高信頼トークンをコミットする '散在受け入れ' に依存している。
このアプローチはキーバリュー(KV)キャッシュを不注意に破壊し、メモリのローカリティを破壊し、不安定なトークン境界を越えて、コストがかかる繰り返しの修復を強制する。
これを解決するために,モノリシックプレフィックス吸収に基づくトレーニングフリーでモデルに依存しない推論パラダイムであるLongest Stable Prefix(LSP)スケジューラを提案する。
それぞれの段階において、LSPは1つの前方通過を通してトークンの安定性を評価し、安定な予測の連続した左整列ブロックを動的に識別し、その境界を原子コミットメントの前に自然言語または構造的デリミタにスナップする。
このプレフィックスファーストトポロジは、2つの利点をもたらす: システム的には、断片化されたKVキャッシュの更新を効率的で連続的な追加に変換する; アルゴリズム的には、幾何学的に縮小するアクティブ接尾辞の上に双方向のルックアヘッドを保存する。
LLaDA-8BとDream-7Bの広範囲な評価により、LSPは、数学的推論、コード生成、多言語(CJK)タスク、創造的な書き込みを含む厳密なベンチマークで最大3.4倍の推論を加速することを示した。
コミットメントトポロジを根本的に再構築することで、LSPはDLMの理論的並列性と実用的なハードウェア効率のギャップを埋める。
関連論文リスト
- Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models [96.0074341403456]
LLM推論を改善するための実用的な方法として、推論時計算が再導入されている。
テスト時間スケーリング(TTS)アルゴリズムの多くは、自動回帰デコーディングに依存している。
そこで我々は,dLLM のための効率的な TTS フレームワーク Prism を提案する。
論文 参考訳(メタデータ) (2026-02-02T09:14:51Z) - CD4LM: Consistency Distillation and aDaptive Decoding for Diffusion Language Models [27.070045950001532]
CD4LMは、推論からトレーニングを分離するフレームワークである。
GSM8Kでは、CD4LMはLLaDAベースラインと5.18倍のウォールクロック速度でマッチする。
論文 参考訳(メタデータ) (2026-01-05T16:09:22Z) - WeDLM: Reconciling Diffusion Language Models with Standard Causal Attention for Fast Inference [44.87788417755154]
本稿では,標準因果注意に基づく拡散復号化フレームワークWeDLMを提案する。
WeDLMは強力なARバックボーンの品質を維持しつつ,大幅な高速化を実現している。
論文 参考訳(メタデータ) (2025-12-28T01:25:48Z) - Beyond Surface Reasoning: Unveiling the True Long Chain-of-Thought Capacity of Diffusion Large Language Models [54.81955614221652]
同時トークン更新を可能にする並列デコード。厳格な推論にしばしば必要とされる因果順序と競合する。
単純な推論タスクと複雑な推論タスクの両方において、DLLMは直接決定可能な出力に対してのみ真の並列性を示すことを示す。
そこで本研究では,PSCによる非効率性と非効率性を低減するために,いくつかの実用的な緩和,並列指向プロンプト,拡散早期停止,並列スケーリングを提案する。
論文 参考訳(メタデータ) (2025-10-10T16:58:14Z) - Accelerating Diffusion LLM Inference via Local Determinism Propagation [27.751279909685604]
LocalLeapは、トレーニング不要の適応並列デコード戦略である。
6.94$times$スループットの改善を実現し、デコード手順を元の要件の14.2%に短縮する。
論文 参考訳(メタデータ) (2025-10-08T14:39:34Z) - Free Draft-and-Verification: Toward Lossless Parallel Decoding for Diffusion Large Language Models [8.407364705777587]
本稿では,DLLMに適した高速デコードアルゴリズムFree Draft-and-Verification(FreeDave)を紹介する。
FreeDaveは、パフォーマンスを低下させることなく、推論スループットを最大3.78倍に向上させることが証明されている。
論文 参考訳(メタデータ) (2025-09-30T21:28:04Z) - Sequential Diffusion Language Models [110.06562906987052]
拡散言語モデル(DLM)は理論効率が強いが、固定長の復号化とキー値キャッシュとの非互換性によって制限される。
次点と次点の予測を統一するNext Sequence Prediction (NSP)を導入する。
本稿では,事前学習した自己回帰言語モデル(ALM)を最小限のコストで再現可能な逐次拡散言語モデル(SDLM)を提案する。
論文 参考訳(メタデータ) (2025-09-28T17:59:15Z) - READER: Retrieval-Assisted Drafter for Efficient LLM Inference [0.0386965802948046]
自己回帰言語モデルはトークンシーケンスよりも分解された確率をインスタンス化するが、その厳密なシーケンシャルなデコーディングプロセスは、遅延推論に固有の低いバウンドを課す。
このボトルネックは、大規模生成モデルのスケーラブルなデプロイにおける中心的な障害として現れています。
本稿では,補助的ドラフトモデルのトレーニングを回避した投機的復号化フレームワークREADERを提案する。
論文 参考訳(メタデータ) (2025-08-12T16:47:48Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。