論文の概要: Stop the Flip-Flop: Context-Preserving Verification for Fast Revocable Diffusion Decoding
- arxiv url: http://arxiv.org/abs/2602.06161v1
- Date: Thu, 05 Feb 2026 19:58:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.090394
- Title: Stop the Flip-Flop: Context-Preserving Verification for Fast Revocable Diffusion Decoding
- Title(参考訳): Flip-Flopの停止: 高速可逆拡散復号のためのコンテキスト保存検証
- Authors: Yanzheng Xiang, Lan Wei, Yizhen Yao, Qinglin Zhu, Hanqi Yan, Chen Jin, Philip Alexander Teare, Dandan Zhang, Lin Gui, Amrutha Saseendran, Yulan He,
- Abstract要約: COVERは、単一のフォワードパス内で、一括検証と安定したドラフトを実行する。
不確実性、下流の影響、キャッシュドリフトのバランスを保ち、ステップ毎に検証された種子の数に適応する。
ベンチマーク全体で、COVERは不要なリビジョンを減らし、出力品質を維持しながらより高速なデコードをもたらす。
- 参考スコア(独自算出の注目度): 28.23607623451461
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parallel diffusion decoding can accelerate diffusion language model inference by unmasking multiple tokens per step, but aggressive parallelism often harms quality. Revocable decoding mitigates this by rechecking earlier tokens, yet we observe that existing verification schemes frequently trigger flip-flop oscillations, where tokens are remasked and later restored unchanged. This behaviour slows inference in two ways: remasking verified positions weakens the conditioning context for parallel drafting, and repeated remask cycles consume the revision budget with little net progress. We propose COVER (Cache Override Verification for Efficient Revision), which performs leave-one-out verification and stable drafting within a single forward pass. COVER constructs two attention views via KV cache override: selected seeds are masked for verification, while their cached key value states are injected for all other queries to preserve contextual information, with a closed form diagonal correction preventing self leakage at the seed positions. COVER further prioritises seeds using a stability aware score that balances uncertainty, downstream influence, and cache drift, and it adapts the number of verified seeds per step. Across benchmarks, COVER markedly reduces unnecessary revisions and yields faster decoding while preserving output quality.
- Abstract(参考訳): 並列拡散復号法は1ステップごとに複数のトークンを解き放つことで拡散言語モデル推論を加速させるが、攻撃的並列性はしばしば品質に悪影響を及ぼす。
Revocable decodingは、以前のトークンをリチェックすることによってこれを緩和するが、既存の検証スキームがフリップフロップ振動を頻繁に引き起こし、トークンをリマインドし、後に復元する。
この振る舞いは2つの方法で推論を遅くする: 検証された位置のリマキングは並列ドラフトの条件付けコンテキストを弱める。
我々は,1回のフォワードパスで一括検証と安定したドラフトを行うCOVER(Cache Override Verification for Efficient Revision)を提案する。
COVERはKVキャッシュオーバーライドを介して2つの注目ビューを構築する: 選択されたシードは検証のためにマスクされ、キャッシュされたキー値状態は他のすべてのクエリに対して注入され、コンテキスト情報を保存する。
COVERはさらに、不確実性、下流の影響、キャッシュドリフトのバランスをとる安定性を考慮したスコアを使用して種子を優先し、ステップ毎に検証された種子の数に適応する。
ベンチマーク全体を通じて、COVERは不要なリビジョンを著しく削減し、出力品質を維持しながらより高速なデコードをもたらす。
関連論文リスト
- CORE: Context-Robust Remasking for Diffusion Language Models [51.59514489363897]
我々は、推論時リビジョンのためのトレーニング不要フレームワークであるContext-Robust Remasking (CORE)を提案する。
静的トークンの確率を信頼するのではなく、COREは、ターゲットとなるマスク付きコンテキストの摂動に対する感受性を示すことによって、コンテキスト不安定なトークンを識別する。
LLaDA-8B-Baseでは、COREは推論とコードベンチマークの間で一貫した改善を行い、計算に適合したベースラインを上回り、MBPPを最大9.2%改善した。
論文 参考訳(メタデータ) (2026-02-04T00:12:30Z) - WeDLM: Reconciling Diffusion Language Models with Standard Causal Attention for Fast Inference [44.87788417755154]
本稿では,標準因果注意に基づく拡散復号化フレームワークWeDLMを提案する。
WeDLMは強力なARバックボーンの品質を維持しつつ,大幅な高速化を実現している。
論文 参考訳(メタデータ) (2025-12-28T01:25:48Z) - Accelerate Speculative Decoding with Sparse Computation in Verification [49.74839681322316]
投機的復号化は、複数のドラフトトークンを並列に検証することにより、自動回帰言語モデル推論を加速する。
既存のスペーシフィケーション方式は主にトークン・バイ・トーケンの自己回帰復号化のために設計されている。
そこで本研究では,注目度,FFN,MoEを両立させるスパース検証フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-26T07:53:41Z) - Rectified Sparse Attention [61.7702154360081]
効率的なロングシーケンス生成は、大規模言語モデルにとって重要な課題である。
本稿では,ブロックスパースアテンションと周期的な密度補正を組み合わせた簡易かつ効果的な方法であるRectified Sparse Attention (ReSA)を提案する。
数学推論、言語モデリング、検索タスクにわたる実験は、ReSAがほぼ無作為な生成品質を達成することを示す。
論文 参考訳(メタデータ) (2025-06-04T16:01:48Z) - Think Before You Accept: Semantic Reflective Verification for Faster Speculative Decoding [48.52389201779425]
投機的復号化は、軽量モデルを使用して複数のドラフトトークンを生成し、それらを並列に検証することで推論を加速する。
既存の検証手法は、意味的正確性を見越しながら、分布の整合性に大きく依存している。
我々は,学習自由でセマンティックなアプローチであるリフレクティブ検証を提案し,正確性と効率のトレードオフを改善する。
論文 参考訳(メタデータ) (2025-05-24T10:26:27Z) - ThinkLess: A Training-Free Inference-Efficient Method for Reducing Reasoning Redundancy [8.962703809086628]
ThinkLessは推論効率のよいフレームワークで、推論生成を早期に終了し、モデルを変更することなく出力品質を維持する。
我々はThinkLessが完全長のChain-of-Thought(CoT)デコードに匹敵する精度を実現し,デコード時間とメモリ消費を大幅に削減することを示した。
論文 参考訳(メタデータ) (2025-05-21T15:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。