論文の概要: Deferred Commitment Decoding for Diffusion Language Models with Confidence-Aware Sliding Windows
- arxiv url: http://arxiv.org/abs/2601.02076v1
- Date: Mon, 05 Jan 2026 12:57:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.136076
- Title: Deferred Commitment Decoding for Diffusion Language Models with Confidence-Aware Sliding Windows
- Title(参考訳): Windows をスライディングする信頼度を考慮した拡散言語モデルのデフレ圧縮デコーディング
- Authors: Yingte Shu, Yuchuan Tian, Chao Xu, Yunhe Wang, Hanting Chen,
- Abstract要約: トレーニング不要なデコード戦略として,Dederred Commitment Decoding (DCD)を提案する。
DCDは、マスクされたトークンの上に信頼性を意識したスライディングウィンドウを保持しており、十分な文脈証拠が得られるまで、高い不確実性トークンを延期しながら、早期に低不確実性トークンを解決している。
実験の結果、DCDは固定ブロックベースの拡散法に比べて平均時間で1.39%向上し、最も顕著な改善は9.0%に達した。
- 参考スコア(独自算出の注目度): 33.361153168706444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion language models (DLMs) have recently emerged as a strong alternative to autoregressive models by enabling parallel text generation. To improve inference efficiency and KV-cache compatibility, prior work commonly adopts block-based diffusion, decoding tokens block by block. However, this paradigm suffers from a structural limitation that we term Boundary-Induced Context Truncation (BICT): undecoded tokens near block boundaries are forced to commit without access to nearby future context, even when such context could substantially reduce uncertainty. This limitation degrades decoding confidence and generation quality, especially for tasks requiring precise reasoning, such as mathematical problem solving and code generation. We propose Deferred Commitment Decoding (DCD), a novel, training-free decoding strategy that mitigates this issue. DCD maintains a confidence-aware sliding window over masked tokens, resolving low-uncertainty tokens early while deferring high-uncertainty tokens until sufficient contextual evidence becomes available. This design enables effective bidirectional information flow within the decoding window without sacrificing efficiency. Extensive experiments across multiple diffusion language models, benchmarks, and caching configurations show that DCD improves generation accuracy by 1.39% with comparable time on average compared to fixed block-based diffusion methods, with the most significant improvement reaching 9.0%. These results demonstrate that deferring token commitment based on uncertainty is a simple yet effective principle for improving both the quality and efficiency of diffusion language model decoding.
- Abstract(参考訳): 拡散言語モデル (DLM) は, 並列テキスト生成を可能にすることで, 自己回帰モデルの強力な代替手段として最近登場した。
推論効率とKV-cacheとの互換性を改善するため、従来の作業ではブロックベースの拡散、トークンのブロック単位の復号化が一般的であった。
しかし、このパラダイムは境界誘起コンテキストトラニケーション(BICT)と呼ばれる構造的制限に悩まされ、ブロック境界付近の非復号トークンは、そのようなコンテキストが不確実性を著しく減少させたとしても、近辺のコンテキストにアクセスできることなくコミットせざるを得ない。
この制限は、特に数学的問題解決やコード生成といった正確な推論を必要とするタスクにおいて、復号化の信頼性と生成品質を低下させる。
本稿では,この問題を緩和する新しい学習自由復号法であるDedeerred Commitment Decoding (DCD)を提案する。
DCDは、マスクされたトークンの上に信頼性を意識したスライディングウィンドウを保持しており、十分な文脈証拠が得られるまで、高い不確実性トークンを延期しながら、早期に低不確実性トークンを解決している。
この設計は、効率を犠牲にすることなく、デコードウィンドウ内の効果的な双方向情報フローを可能にする。
複数の拡散言語モデル、ベンチマーク、キャッシュ構成の広範な実験により、DCDは固定ブロックベースの拡散法と比較して平均時間で1.39%向上し、最も顕著な改善は9.0%に達した。
これらの結果は,拡散言語モデル復号法の品質と効率を両立させる上で,不確実性に基づくトークンの復号化は単純かつ効果的な原理であることを示している。
関連論文リスト
- DODO: Discrete OCR Diffusion Models [15.352694377412229]
離散拡散ブロックを利用した最初の VLM であるDODO を導入し,OCR の高速化の可能性を明らかにする。
提案手法は, 自己回帰ベースラインに比べて最大3倍高速な推論を実現するとともに, 最先端の精度を実現する。
論文 参考訳(メタデータ) (2026-02-18T20:59:22Z) - Advancing Block Diffusion Language Models for Test-Time Scaling [73.54022593833638]
BDLMにおけるテスト時間スケーリングのための統一的なフレームワークを提案する。
復号化とブロックワイズ生成の両方に適応性を導入する。
BACD, TCCFをTDAR-8Bに適用すると, 強いベースラインよりも顕著な改善が得られた。
論文 参考訳(メタデータ) (2026-02-10T09:05:07Z) - DSB: Dynamic Sliding Block Scheduling for Diffusion LLMs [17.284485483927448]
拡散大言語モデル(dLLM)は、テキスト生成の有望な代替手段として登場した。
広く使われている固定ブロック (naive) スケジュールは意味的難易度に非依存であり、品質と効率の両面での準最適戦略である。
本研究では,動的ブロックの剛性を克服するため,動的サイズを有するスライディングブロックを用いて,トレーニング不要なブロックスケジューリング手法であるDynamic Sliding Block (DSB)を提案する。
論文 参考訳(メタデータ) (2026-02-05T18:41:38Z) - Residual Context Diffusion Language Models [90.07635240595926]
Residual Context Diffusion (RCD) は、捨てられたトークン表現をコンテキスト残留に変換し、次のデノイングステップでそれらを注入するモジュールである。
RCDは、最小限の計算オーバーヘッドで、5-10ポイントの精度でフロンティアdLLMを一貫して改善する。
論文 参考訳(メタデータ) (2026-01-30T13:16:32Z) - Causal Autoregressive Diffusion Language Model [70.7353007255797]
CARDは厳密な因果注意マスク内の拡散過程を再構成し、単一の前方通過で密集した1対1の監視を可能にする。
我々の結果は,CARDが並列生成のレイテンシの利点を解放しつつ,ARMレベルのデータ効率を実現することを示す。
論文 参考訳(メタデータ) (2026-01-29T17:38:29Z) - Reversible Diffusion Decoding for Diffusion Language Models [69.10149777322108]
Reversible Diffusion Decoding (RDD) はブロックワイド拡散生成に可逆性を導入するデコーディングフレームワークである。
RDDは、逆プロセスの状態依存的な障害として停滞を検出し、以前のブロックへの効率的なバックトラックを可能にする。
実験により、RDDは最小の計算オーバーヘッドでベースラインよりも生成の堅牢性と品質を向上させることが示された。
論文 参考訳(メタデータ) (2026-01-29T12:52:33Z) - From Bits to Rounds: Parallel Decoding with Exploration for Diffusion Language Models [19.97248408121574]
Diffusion Language Models (DLMs) は並列デコードにより高速な推論速度で同等の精度を提供する。
高信頼トークンは無視可能な情報を持ち、それらに厳密に依存することで、各デコードラウンドにおける効果的な進捗を制限する。
本研究では,情報スループットと復号効率を最大化する学習自由復号法であるExplore-Then-Exploit (ETE)を提案する。
論文 参考訳(メタデータ) (2025-11-26T06:38:37Z) - AdaBlock-dLLM: Semantic-Aware Diffusion LLM Inference via Adaptive Block Size [7.442463267121892]
拡散に基づく大規模言語モデル (dLLM) は並列デコードに固有の能力で注目を集めている。
本稿では,セミARデコードにおける固定ブロックサイズの仮定に挑戦する最初の体系的な研究を提案する。
AdaBlock-dLLMは,実行中のブロックサイズを調整することで,ブロック境界とセマンティックステップを適応的に調整する,トレーニング不要のプラグイン・アンド・プレイスケジューラである。
論文 参考訳(メタデータ) (2025-09-30T15:53:56Z) - Fast and Fluent Diffusion Language Models via Convolutional Decoding and Rejective Fine-tuning [23.58934174168992]
Autoregressive (AR)言語モデルでは、テキストを1つずつ生成することで、推論速度が制限される。
ハードセグメンテーションなしでデコードウインドウを狭める正規化法である畳み込み復号法(Conv)を提案する。
Rejecting Rule-based Fine-Tuning (R2FT)も導入しています。
論文 参考訳(メタデータ) (2025-09-18T17:48:21Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z) - Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [55.0194604505437]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。
本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文 参考訳(メタデータ) (2024-08-10T21:24:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。