論文の概要: Stopping Computation for Converged Tokens in Masked Diffusion-LM Decoding
- arxiv url: http://arxiv.org/abs/2602.06412v1
- Date: Fri, 06 Feb 2026 06:08:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.254497
- Title: Stopping Computation for Converged Tokens in Masked Diffusion-LM Decoding
- Title(参考訳): Masked Diffusion-LMデコードにおける収束トークンの停止計算
- Authors: Daisuke Oba, Danushka Bollegala, Masahiro Kaneko, Naoaki Okazaki,
- Abstract要約: Masked Diffusion Language Modelsは、トークンを徐々に解き放つ反復サンプリングを通じてシーケンスを生成する。
そこで我々は,アンマスキーク位置の後方が段差で安定すると,その位置をロックする,SureLockを提案する。
これにより、定位当たりの計算コストは$O(N2d)$から$O(MNd)$に削減され、$N$はシーケンス長、$M$はアンロックされたトークン位置の数、$d$はモデル寸法となる。
- 参考スコア(独自算出の注目度): 46.61138996670135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked Diffusion Language Models generate sequences via iterative sampling that progressively unmasks tokens. However, they still recompute the attention and feed-forward blocks for every token position at every step -- even when many unmasked tokens are essentially fixed, resulting in substantial waste in compute. We propose SureLock: when the posterior at an unmasked position has stabilized across steps (our sure condition), we lock that position -- thereafter skipping its query projection and feed-forward sublayers -- while caching its attention keys and values so other positions can continue to attend to it. This reduces the dominant per-iteration computational cost from $O(N^2d)$ to $O(MNd)$ where $N$ is the sequence length, $M$ is the number of unlocked token positions, and $d$ is the model dimension. In practice, $M$ decreases as the iteration progresses, yielding substantial savings. On LLaDA-8B, SureLock reduces algorithmic FLOPs by 30--50% relative to the same sampler without locking, while maintaining comparable generation quality. We also provide a theoretical analysis to justify the design rationale of SureLock: monitoring only the local KL at the lock step suffices to bound the deviation in final token probabilities. Our code will be available at https://daioba.github.io/surelock .
- Abstract(参考訳): Masked Diffusion Language Modelsは、トークンを徐々に解き放つ反復サンプリングを通じてシーケンスを生成する。
しかしながら、すべてのステップにおいて、すべてのトークン位置に対する注意とフィードフォワードブロック -- 事実上多くのアンマストトークンが固定されても、計算にかなりの無駄が発生します。我々は、未マストトークンの後方がステップ全体にわたって安定化している場合(確実な条件下で)、その位置をロックします -- その後、クエリプロジェクションとフィードフォワードサブレイヤをスキップします -- をキャッシュしながら、アテンションキーと値をキャッシュし、他の位置がそれに対応するようにします。
これにより、支配的な設定単位の計算コストが$O(N^2d)$から$O(MNd)$に削減され、$N$はシーケンス長、$M$はアンロックされたトークン位置の数、$d$はモデル寸法となる。
実際には、イテレーションが進むにつれて$M$は減少し、かなりの節約になる。
LLaDA-8Bでは、SureLockはアルゴリズムのFLOPをロックなしで同じサンプリング器と比較して30-50%削減し、同等の生成品質を維持している。
また,SureLockの設計原理を正当化するための理論的解析も提供する。ロックステップにおける局所KLのみを監視して,最終的なトークン確率の偏差を限定する。
私たちのコードはhttps://daioba.github.io/surelock.orgで公開されます。
関連論文リスト
- Trust Region Masking for Long-Horizon LLM Reinforcement Learning [20.589897184824878]
大規模言語モデルのポリシー勾配法は、ロールアウトポリシーのサンプルから計算された代理目的を最適化する。
$_textroll ne _$ の場合、サロゲートと真の目的の間に近似誤差がある。
本稿では,トークンが信頼領域に違反した場合に,全シーケンスを勾配計算から除外するトラスト領域マスキング(TRM)を提案する。
論文 参考訳(メタデータ) (2025-12-28T20:41:59Z) - Blockwise SFT for Diffusion Language Models: Reconciling Bidirectional Attention and Autoregressive Decoding [60.06816407728172]
離散拡散言語モデルは、テキスト生成に強い可能性を示している。
半自己回帰推論による微調整ミスアライメントの標準化
我々は、応答を固定サイズブロックに分割するBlockwise SFTを提案する。
論文 参考訳(メタデータ) (2025-08-27T02:49:33Z) - Compression Barriers for Autoregressive Transformers [0.8331054243801623]
自己回帰変換器の鍵となる制限は、以前のキー値の埋め込みをキャッシュするために必要な大きなメモリである。
任意のアルゴリズムが$Omega(dcdot ed)$空間を必要としていることを示し、ザンディー、ハン、ミロクニ、カルバシによって提案された SubGen の被覆数に対する厳密な境界を用いて証明する。
論文 参考訳(メタデータ) (2025-02-21T21:37:52Z) - Pseudorandom Permutations from Random Reversible Circuits [1.9567015559455132]
固定された最寄りのアーキテクチャにおいて,各層が$approx n/3$のランダムゲートからなる深さ$n cdot tildeO(k2)$のランダム回路がほぼ$k$の独立な置換をもたらすことを示す。
また、擬似乱数関数からの擬似乱数置換のLuby-Rack-off構成は可逆回路で実装可能であることを示す。
論文 参考訳(メタデータ) (2024-04-23T00:50:57Z) - Near-Optimal Regret Bounds for Multi-batch Reinforcement Learning [54.806166861456035]
本研究では,有限水平マルコフ決定過程(MDP)によってモデル化されたエピソディック強化学習(RL)問題をバッチ数に制約を加えて検討する。
我々は,$tildeO(sqrtSAH3Kln (1/delta))$tildeO(cdot)をほぼ最適に後悔するアルゴリズムを設計し,$(S,A,H,K)$の対数項を$K$で隠蔽する。
技術的貢献は2つある: 1) 探索のためのほぼ最適設計スキーム
論文 参考訳(メタデータ) (2022-10-15T09:22:22Z) - Quantum copy-protection of compute-and-compare programs in the quantum random oracle model [48.94443749859216]
計算・比較プログラム(Computer-and-compare program)として知られる回避関数のクラスに対する量子コピー保護スキームを導入する。
我々は,量子乱数オラクルモデル(QROM)において,完全悪意のある敵に対する非自明なセキュリティを実現することを証明した。
補完的な結果として、「セキュアソフトウェアリース」という,ソフトウェア保護の概念の弱さが示される。
論文 参考訳(メタデータ) (2020-09-29T08:41:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。