論文の概要: STDec: Spatio-Temporal Stability Guided Decoding for dLLMs
- arxiv url: http://arxiv.org/abs/2604.06330v1
- Date: Tue, 07 Apr 2026 18:13:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.170313
- Title: STDec: Spatio-Temporal Stability Guided Decoding for dLLMs
- Title(参考訳): STDec: dLLMの時空間安定性ガイドデコード
- Authors: Yuzhe Chen, Jiale Cao, Xuyang Liu, Jin Xie, Aiping Yang, Yanwei Pang,
- Abstract要約: 大規模拡散言語モデル(dLLM)は、自己回帰パラダイムに代わる有望な選択肢と見なされ、急速な進歩を遂げている。
ほとんどのdLLMデコーダは依然としてグローバルな信頼しきい値を採用しており、近隣のデコード状態や予測トークンIDの時間的一貫性からローカルコンテキストをモデル化していない。
我々は,dLLMデコーディングにおいて時間的安定性に近い強い安定性を観察し,そのアプローチには空間的認識復号と時間的認識復号が含まれる。
- 参考スコア(独自算出の注目度): 49.55447757907809
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Large Language Models (dLLMs) have achieved rapid progress, viewed as a promising alternative to the autoregressive paradigm. However, most dLLM decoders still adopt a global confidence threshold, and do not explicitly model local context from neighboring decoded states or temporal consistency of predicted token IDs across steps. To address this issue, we propose a simple spatio-temporal stability guided decoding approach, named STDec. We observe strong spatio-temporal stability in dLLM decoding: newly decoded tokens tend to lie near decoded neighbors, and their predicted IDs often remain consistent across several denoising steps. Inspired by this stability, our STDec includes spatial-aware decoding and temporal-aware decoding. The spatial-aware decoding dynamically generates the token-adaptive threshold by aggregating the decoded states of nearby tokens. The temporal-aware decoding relaxes the decoding thresholds for tokens whose predicted token IDs remain consistent over denoising steps. Our STDec is training-free and remains compatible with cache-based acceleration methods. Across textual reasoning and multimodal understanding benchmarks, STDec substantially improves throughput while maintaining comparable task performance score. Notably, on MBPP with LLaDA, STDec achieves up to 14.17x speedup with a comparable score. Homepage: https://yzchen02.github.io/STDec.
- Abstract(参考訳): 拡散大言語モデル(dLLM)は、自己回帰パラダイムに代わる有望な選択肢と見なされ、急速に進歩している。
しかし、ほとんどのdLLMデコーダは依然としてグローバルな信頼しきい値を採用しており、近隣のデコード状態や予測トークンIDの時間的一貫性からローカルコンテキストを明示的にモデル化していない。
この問題に対処するため,STDecという簡単な時空間安定誘導復号法を提案する。
新たにデコードされたトークンは、デコードされた隣人の近くにありがちで、予測されたIDは、いくつかのデノードステップで一貫性が保たれることが多い。
この安定性にインスパイアされたSTDecは、空間認識復号と時間認識復号を含む。
空間認識復号化は、近傍のトークンの復号化状態を集約することにより、トークン適応しきい値を動的に生成する。
時間認識復号化により、予測トークンIDが復号化ステップよりも一貫性のあるトークンの復号しきい値が緩和される。
当社のSTDecはトレーニングフリーで、キャッシュベースのアクセラレーションメソッドと互換性があります。
テキスト推論とマルチモーダル理解ベンチマーク全体にわたって、STDecは、同等のタスクパフォーマンススコアを維持しながら、スループットを大幅に改善する。
特に、LLaDAのMBPPでは、STDecは14.17倍のスピードアップを達成している。
ホームページ: https://yzchen02.github.io/STDec
関連論文リスト
- Slow-Fast Inference: Training-Free Inference Acceleration via Within-Sentence Support Stability [61.28049899686214]
本稿では,生成を低コストの高速ステップと時折高密度の低速ステップに分解する,学習不要な復号化フレームワークを提案する。
評価されたコンテキスト長全体にわたって、SFIは約1.6times$--14.4times$高い復号スループットを提供する。
論文 参考訳(メタデータ) (2026-03-12T15:14:48Z) - DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention [2.7422645382944935]
そこで我々はDyLLMを提案する。DyLLMは正規トークンのみを選択的に計算することでデコーディングを高速化する学習自由推論フレームワークである。
DyLLMは様々な推論とコード生成ベンチマークで最大9.6倍のスループットを実現している。
論文 参考訳(メタデータ) (2026-03-09T07:02:01Z) - Beyond Scattered Acceptance: Fast and Coherent Inference for DLMs via Longest Stable Prefixes [10.877713536966601]
Longestahead Prefix(LSP)スケジューラは、モノリシックプレフィックスの吸収に基づく、トレーニング不要でモデルに依存しない推論パラダイムである。
LSPは1つのフォワードパスを介してトークンの安定性を評価し、安定な予測の連続した左整列ブロックを動的に識別する。
原子のコミットメントの前に、言語や構造的受容の境界を画定する。
論文 参考訳(メタデータ) (2026-03-05T18:25:26Z) - Beyond Fixed Frames: Dynamic Character-Aligned Speech Tokenization [27.32235541083431]
動的キャラクタアライズされた音声トケナイザであるDyCASTを紹介する。
DyCASTは、訓練中にトークンと文字レベルの言語単位を関連付けることを学ぶ。
また,不確かさを増大させることなく再現性を高める検索拡張復号機構を導入する。
論文 参考訳(メタデータ) (2026-01-30T16:58:40Z) - Residual Context Diffusion Language Models [90.07635240595926]
Residual Context Diffusion (RCD) は、捨てられたトークン表現をコンテキスト残留に変換し、次のデノイングステップでそれらを注入するモジュールである。
RCDは、最小限の計算オーバーヘッドで、5-10ポイントの精度でフロンティアdLLMを一貫して改善する。
論文 参考訳(メタデータ) (2026-01-30T13:16:32Z) - CD4LM: Consistency Distillation and aDaptive Decoding for Diffusion Language Models [27.070045950001532]
CD4LMは、推論からトレーニングを分離するフレームワークである。
GSM8Kでは、CD4LMはLLaDAベースラインと5.18倍のウォールクロック速度でマッチする。
論文 参考訳(メタデータ) (2026-01-05T16:09:22Z) - Accelerating Diffusion LLM Inference via Local Determinism Propagation [27.751279909685604]
LocalLeapは、トレーニング不要の適応並列デコード戦略である。
6.94$times$スループットの改善を実現し、デコード手順を元の要件の14.2%に短縮する。
論文 参考訳(メタデータ) (2025-10-08T14:39:34Z) - StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs [54.229363096087866]
音声トークン化器は、意味不明な音響摂動に対して頑健ではない。
この不安定性は、脆い単一パス量子化アーキテクチャと遠い訓練信号の2つの欠陥に由来する。
コンセンサス駆動機構による安定性を実現するトークンライザであるStableTokenを紹介する。
論文 参考訳(メタデータ) (2025-09-26T11:32:51Z) - Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [72.27673320976933]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおけるブレークスルーを可能にする。
現在のキャッシュ技術は、フルレイヤ状態を保存することでデコーディングを加速するが、メモリ使用量を大幅に増加させる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。