論文の概要: Breaking Block Boundaries: Anchor-based History-stable Decoding for Diffusion Large Language Models
- arxiv url: http://arxiv.org/abs/2604.08964v1
- Date: Fri, 10 Apr 2026 05:08:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.6932
- Title: Breaking Block Boundaries: Anchor-based History-stable Decoding for Diffusion Large Language Models
- Title(参考訳): ブロック境界を破る: 拡散大言語モデルのためのアンカーベースヒストリスタブルデコーディング
- Authors: Shun Zou, Yong Wang, Zehui Chen, Lin Chen, Chongyang Tao, Feng Zhao, Xiangxiang Chu,
- Abstract要約: 本稿では,Anchor-based History-stable Decoding (AHD) を提案する。
AHDは動的アンカーを通してトークンの安定性トレンドをリアルタイムで監視する。
当社のアプローチでは、デコーディングのステップを80%削減し、パフォーマンスを3.67%向上させています。
- 参考スコア(独自算出の注目度): 54.468024377748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Large Language Models (dLLMs) have recently become a promising alternative to autoregressive large language models (ARMs). Semi-autoregressive (Semi-AR) decoding is widely employed in base dLLMs and advanced decoding strategies due to its superior performance. However, our observations reveal that Semi-AR decoding suffers from inherent block constraints, which cause the decoding of many cross-block stable tokens to be unnecessarily delayed. To address this challenge, we systematically investigate the identification of stable tokens and present three key findings: (1) naive lookahead decoding is unreliable, (2) token stability closely correlates with convergence trend, and (3) historical information is isolated. Building on these insights, we propose Anchor-based History-stable Decoding (AHD), a training-free, plug-and-play dynamic decoding strategy. Specifically, AHD monitors the stability trend of tokens in real time through dynamic anchors. Once a token reaches stability, it initiates early cross-block decoding to enhance efficiency and performance. Extensive experiments across language, vision-language, and audio-language domains demonstrate that AHD simultaneously improves both performance and inference efficiency. Notably, AHD effectively reverses the performance degradation typically observed in existing advanced decoding acceleration strategies. For instance, on the BBH benchmark, our approach reduces decoding steps by 80% while improving performance by 3.67%.
- Abstract(参考訳): 拡散大言語モデル(dLLM)は、最近、自動回帰大言語モデル(ARM)の代替として有望なものになった。
セミオートレグレッシブ(Semi-AR)デコーディングは、性能が優れているため、ベースdLLMや高度なデコーディング戦略で広く使われている。
しかし,本研究では,セミAR復号化には固有のブロック制約が伴い,多くのクロスブロック安定トークンの復号化が必然的に遅れることが判明した。
この課題に対処するために, 安定なトークンの識別を体系的に検討し, 1) ナイーブなルックアヘッド復号化は信頼できない, (2) トークンの安定性は収束傾向と密接に相関し, (3) 歴史的情報を分離する,という3つの重要な知見を提示する。
これらの知見に基づいて,Anchor-based History-stable Decoding (AHD) を提案する。
具体的には、AHDは動的アンカーを通してトークンの安定性の傾向をリアルタイムで監視する。
トークンが安定に達すると、早期のクロスブロックデコーディングを開始し、効率と性能を高める。
言語、視覚言語、およびオーディオ言語ドメインにわたる広範な実験により、AHDは性能と推論効率の両方を同時に改善することを示した。
特に、AHDは既存の先進デコード加速戦略で見られる性能劣化を効果的に逆転させる。
例えば、BBHベンチマークでは、デコードステップを80%削減し、パフォーマンスを3.67%改善しています。
関連論文リスト
- STDec: Spatio-Temporal Stability Guided Decoding for dLLMs [49.55447757907809]
大規模拡散言語モデル(dLLM)は、自己回帰パラダイムに代わる有望な選択肢と見なされ、急速な進歩を遂げている。
ほとんどのdLLMデコーダは依然としてグローバルな信頼しきい値を採用しており、近隣のデコード状態や予測トークンIDの時間的一貫性からローカルコンテキストをモデル化していない。
我々は,dLLMデコーディングにおいて時間的安定性に近い強い安定性を観察し,そのアプローチには空間的認識復号と時間的認識復号が含まれる。
論文 参考訳(メタデータ) (2026-04-07T18:13:31Z) - Advancing Block Diffusion Language Models for Test-Time Scaling [73.54022593833638]
BDLMにおけるテスト時間スケーリングのための統一的なフレームワークを提案する。
復号化とブロックワイズ生成の両方に適応性を導入する。
BACD, TCCFをTDAR-8Bに適用すると, 強いベースラインよりも顕著な改善が得られた。
論文 参考訳(メタデータ) (2026-02-10T09:05:07Z) - Deferred Commitment Decoding for Diffusion Language Models with Confidence-Aware Sliding Windows [33.361153168706444]
トレーニング不要なデコード戦略として,Dederred Commitment Decoding (DCD)を提案する。
DCDは、マスクされたトークンの上に信頼性を意識したスライディングウィンドウを保持しており、十分な文脈証拠が得られるまで、高い不確実性トークンを延期しながら、早期に低不確実性トークンを解決している。
実験の結果、DCDは固定ブロックベースの拡散法に比べて平均時間で1.39%向上し、最も顕著な改善は9.0%に達した。
論文 参考訳(メタデータ) (2026-01-05T12:57:33Z) - WeDLM: Reconciling Diffusion Language Models with Standard Causal Attention for Fast Inference [44.87788417755154]
本稿では,標準因果注意に基づく拡散復号化フレームワークWeDLMを提案する。
WeDLMは強力なARバックボーンの品質を維持しつつ,大幅な高速化を実現している。
論文 参考訳(メタデータ) (2025-12-28T01:25:48Z) - From Bits to Rounds: Parallel Decoding with Exploration for Diffusion Language Models [19.97248408121574]
Diffusion Language Models (DLMs) は並列デコードにより高速な推論速度で同等の精度を提供する。
高信頼トークンは無視可能な情報を持ち、それらに厳密に依存することで、各デコードラウンドにおける効果的な進捗を制限する。
本研究では,情報スループットと復号効率を最大化する学習自由復号法であるExplore-Then-Exploit (ETE)を提案する。
論文 参考訳(メタデータ) (2025-11-26T06:38:37Z) - AdaBlock-dLLM: Semantic-Aware Diffusion LLM Inference via Adaptive Block Size [7.442463267121892]
拡散に基づく大規模言語モデル (dLLM) は並列デコードに固有の能力で注目を集めている。
本稿では,セミARデコードにおける固定ブロックサイズの仮定に挑戦する最初の体系的な研究を提案する。
AdaBlock-dLLMは,実行中のブロックサイズを調整することで,ブロック境界とセマンティックステップを適応的に調整する,トレーニング不要のプラグイン・アンド・プレイスケジューラである。
論文 参考訳(メタデータ) (2025-09-30T15:53:56Z) - Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [72.27673320976933]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおけるブレークスルーを可能にする。
現在のキャッシュ技術は、フルレイヤ状態を保存することでデコーディングを加速するが、メモリ使用量を大幅に増加させる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。