論文の概要: Plan for Speed -- Dilated Scheduling for Masked Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2506.19037v1
- Date: Mon, 23 Jun 2025 18:49:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.347425
- Title: Plan for Speed -- Dilated Scheduling for Masked Diffusion Language Models
- Title(参考訳): 高速化計画-擬似拡散言語モデルのための拡張スケジューリング
- Authors: Omer Luxembourg, Haim Permuter, Eliya Nachmani,
- Abstract要約: 仮面拡散言語モデル (MDLM) は非自己回帰的テキスト生成に強く期待されている。
既存のサンプルは暗黙のプランナーとして機能し、デノイザーの信頼やエントロピースコアを通じてアンマスクするトークンを選択する。
DUS(Dilated-scheduled Unmasking Strategy)は、追加のトレーニングを必要としない推論のみのプランナーフリーな手法である。
- 参考スコア(独自算出の注目度): 13.575063025878208
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked diffusion language models (MDLM) have shown strong promise for non-autoregressive text generation, yet existing samplers act as implicit planners, selecting tokens to unmask via denoiser confidence or entropy scores. Such heuristics falter under parallel unmasking - they ignore pairwise interactions between tokens and cannot account for dependencies when unmasking multiple positions at once, limiting their inference time to traditional auto-regressive (AR) models. We introduce the Dilated-scheduled Unmasking Strategy (DUS), an inference-only, planner-model-free method that requires no additional training. DUS leverages a first-order Markov assumption to partition sequence positions into dilation-based groups of non-adjacent tokens, enabling independent, parallel unmasking steps that respect local context that minimizes the joint entropy of each iteration step. Unlike semi-AR block approaches (e.g., LLADA and Dream) that still invoke the denoiser per block, DUS reduces the number of denoiser calls to O(log B) per generation block - yielding substantial speedup over the O(B) run time of state-of-the-art diffusion models, where B is the block size in the semi-AR inference process. In experiments on math (GSM8K) and code completion (Humaneval, MBPP) benchmarks - domains suited to non-ordinal generation - DUS improves scores over parallel confidence-based planner, without modifying the underlying denoiser. DUS offers a lightweight, budget-aware approach to efficient, high-quality text generation, paving the way to unlock the true capabilities of MDLMs.
- Abstract(参考訳): 仮面拡散言語モデル(MDLM)は、非自己回帰的なテキスト生成に対して強い期待を示しているが、既存のサンプルは暗黙のプランナーとして機能し、デノイザーの自信やエントロピースコアを通じてアンマスクするトークンを選択する。
このようなヒューリスティックスは、並列なアンマスキーク(unmasking)の下で失敗する - トークン間のペアの相互作用を無視し、一度に複数の位置をアンマスキークする際に依存性を説明できないため、推論時間を従来の自己回帰(AR)モデルに制限する。
DUS(Dilated-scheduled Unmasking Strategy)は、追加のトレーニングを必要としない推論のみのプランナーフリーな手法である。
DUSは1階のマルコフ仮定を利用して、列の位置を非隣接トークンのダイレーションに基づくグループに分割し、各反復ステップの合同エントロピーを最小化する局所的コンテキストを尊重する独立で並列なアンマスキングステップを可能にする。
ブロック毎にデノイザを起動するセミARブロックアプローチ(例えばLLADAやドリーム)とは異なり、DUSはジェネレーションブロック当たりのO(log B)へのデノイザ呼び出し数を削減し、BはセミAR推論プロセスにおけるブロックサイズである最先端拡散モデルのO(B)実行時間を大幅に高速化する。
数学(GSM8K)とコード補完(Humaneval, MBPP)ベンチマーク(非正規生成に適したドメイン)の実験では、DUSは、基礎となるデノイザを変更することなく、並列信頼ベースのプランナよりもスコアを改善する。
DUSは、効率的で高品質なテキスト生成に対して、軽量で予算対応のアプローチを提供し、MDLMの真の能力を解き放ちます。
関連論文リスト
- Sampling from Your Language Model One Byte at a Time [82.71473348639489]
トークン化はモデルの世代に歪みをもたらす可能性がある。
トークンライザのミスマッチは、しばしばモデル構成と相互運用性を妨げる。
本稿では,BPEトークン化器を用いた自己回帰型LMを文字レベルあるいはバイトレベルのLMに変換する推論時間を提案する。
論文 参考訳(メタデータ) (2025-06-17T02:37:04Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [50.9948753314669]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - Insertion Language Models: Sequence Generation with Arbitrary-Position Insertions [41.45689715854447]
Insertion Language Models (ILM)を導入し、任意の位置にトークンを挿入することを学習する。
ILMはトークン間の強い依存関係を表現することができ、任意の順序でシーケンスを生成する能力により、正確にシーケンスをモデル化することができる。
論文 参考訳(メタデータ) (2025-05-09T03:29:15Z) - Reviving Any-Subset Autoregressive Models with Principled Parallel Sampling and Speculative Decoding [55.2480439325792]
任意の順序言語モデルでは、正しい関節分布からトークンを並列にサンプリングする方法がオープンな問題である。
我々は,任意のサブセット自動回帰モデル (AS-ARM) という,異なるモデルのクラスが解を持っていることを発見した。
我々は,AS-ARMがベンチマークタスクを埋め込んだ200M未満のパラメータモデル間で最先端の性能を実現し,コード生成における50倍のモデルの性能とほぼ一致していることを示す。
論文 参考訳(メタデータ) (2025-04-29T06:33:13Z) - Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力
本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。
PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文 参考訳(メタデータ) (2025-01-07T17:00:49Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。