論文の概要: Plan for Speed -- Dilated Scheduling for Masked Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2506.19037v1
- Date: Mon, 23 Jun 2025 18:49:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.347425
- Title: Plan for Speed -- Dilated Scheduling for Masked Diffusion Language Models
- Title(参考訳): 高速化計画-擬似拡散言語モデルのための拡張スケジューリング
- Authors: Omer Luxembourg, Haim Permuter, Eliya Nachmani,
- Abstract要約: 仮面拡散言語モデル (MDLM) は非自己回帰的テキスト生成に強く期待されている。
既存のサンプルは暗黙のプランナーとして機能し、デノイザーの信頼やエントロピースコアを通じてアンマスクするトークンを選択する。
DUS(Dilated-scheduled Unmasking Strategy)は、追加のトレーニングを必要としない推論のみのプランナーフリーな手法である。
- 参考スコア(独自算出の注目度): 13.575063025878208
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked diffusion language models (MDLM) have shown strong promise for non-autoregressive text generation, yet existing samplers act as implicit planners, selecting tokens to unmask via denoiser confidence or entropy scores. Such heuristics falter under parallel unmasking - they ignore pairwise interactions between tokens and cannot account for dependencies when unmasking multiple positions at once, limiting their inference time to traditional auto-regressive (AR) models. We introduce the Dilated-scheduled Unmasking Strategy (DUS), an inference-only, planner-model-free method that requires no additional training. DUS leverages a first-order Markov assumption to partition sequence positions into dilation-based groups of non-adjacent tokens, enabling independent, parallel unmasking steps that respect local context that minimizes the joint entropy of each iteration step. Unlike semi-AR block approaches (e.g., LLADA and Dream) that still invoke the denoiser per block, DUS reduces the number of denoiser calls to O(log B) per generation block - yielding substantial speedup over the O(B) run time of state-of-the-art diffusion models, where B is the block size in the semi-AR inference process. In experiments on math (GSM8K) and code completion (Humaneval, MBPP) benchmarks - domains suited to non-ordinal generation - DUS improves scores over parallel confidence-based planner, without modifying the underlying denoiser. DUS offers a lightweight, budget-aware approach to efficient, high-quality text generation, paving the way to unlock the true capabilities of MDLMs.
- Abstract(参考訳): 仮面拡散言語モデル(MDLM)は、非自己回帰的なテキスト生成に対して強い期待を示しているが、既存のサンプルは暗黙のプランナーとして機能し、デノイザーの自信やエントロピースコアを通じてアンマスクするトークンを選択する。
このようなヒューリスティックスは、並列なアンマスキーク(unmasking)の下で失敗する - トークン間のペアの相互作用を無視し、一度に複数の位置をアンマスキークする際に依存性を説明できないため、推論時間を従来の自己回帰(AR)モデルに制限する。
DUS(Dilated-scheduled Unmasking Strategy)は、追加のトレーニングを必要としない推論のみのプランナーフリーな手法である。
DUSは1階のマルコフ仮定を利用して、列の位置を非隣接トークンのダイレーションに基づくグループに分割し、各反復ステップの合同エントロピーを最小化する局所的コンテキストを尊重する独立で並列なアンマスキングステップを可能にする。
ブロック毎にデノイザを起動するセミARブロックアプローチ(例えばLLADAやドリーム)とは異なり、DUSはジェネレーションブロック当たりのO(log B)へのデノイザ呼び出し数を削減し、BはセミAR推論プロセスにおけるブロックサイズである最先端拡散モデルのO(B)実行時間を大幅に高速化する。
数学(GSM8K)とコード補完(Humaneval, MBPP)ベンチマーク(非正規生成に適したドメイン)の実験では、DUSは、基礎となるデノイザを変更することなく、並列信頼ベースのプランナよりもスコアを改善する。
DUSは、効率的で高品質なテキスト生成に対して、軽量で予算対応のアプローチを提供し、MDLMの真の能力を解き放ちます。
関連論文リスト
- Sampling from Your Language Model One Byte at a Time [82.71473348639489]
トークン化はモデルの世代に歪みをもたらす可能性がある。
トークンライザのミスマッチは、しばしばモデル構成と相互運用性を妨げる。
本稿では,BPEトークン化器を用いた自己回帰型LMを文字レベルあるいはバイトレベルのLMに変換する推論時間を提案する。
論文 参考訳(メタデータ) (2025-06-17T02:37:04Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [50.9948753314669]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - Accelerated Sampling from Masked Diffusion Models via Entropy Bounded Unmasking [17.511240770486452]
仮面拡散モデル (MDM) は, 言語モデリングにおける自己回帰モデル (ARM) と比較して, 競合性能を示した。
本稿では,Entropy bounded unmasking 手法を用いて,既存のサンプルのドロップイン置換であるEB-Samplerを紹介する。
EB-Samplerは、パフォーマンスを損なうことなく、標準的なコーディングと数学推論ベンチマークで、最先端のMDMのサンプリングを約2~3倍高速化する。
論文 参考訳(メタデータ) (2025-05-30T17:52:55Z) - Partition Generative Modeling: Masked Modeling Without Masks [1.4110007887109783]
分割生成モデル(PGM)はマスク生成モデル(MGM)の新しいアプローチである
1024トークンのコンテキスト長を持つOpenWebTextの実験では、PGMがレイテンシとスループットの両方で少なくとも5倍改善されていることが示されている。
論文 参考訳(メタデータ) (2025-05-24T21:44:32Z) - Beyond Masked and Unmasked: Discrete Diffusion Models via Partial Masking [17.371579113481644]
マスケード拡散モデル(MDM)は、離散データのための強力な生成モデルであり、段階的にトークンを配列で解き放つことでサンプルを生成する。
本稿では、トークンがマスクされた状態とマスクされていない状態の間を中間状態にすることでMDMを増強する部分マスキングスキーム(Prime)を提案する。
本手法は,多種多様な生成モデルタスクに対して優れた性能を示す。
論文 参考訳(メタデータ) (2025-05-24T04:16:40Z) - Insertion Language Models: Sequence Generation with Arbitrary-Position Insertions [41.45689715854447]
Insertion Language Models (ILM)を導入し、任意の位置にトークンを挿入することを学習する。
ILMはトークン間の強い依存関係を表現することができ、任意の順序でシーケンスを生成する能力により、正確にシーケンスをモデル化することができる。
論文 参考訳(メタデータ) (2025-05-09T03:29:15Z) - Reviving Any-Subset Autoregressive Models with Principled Parallel Sampling and Speculative Decoding [55.2480439325792]
任意の順序言語モデルでは、正しい関節分布からトークンを並列にサンプリングする方法がオープンな問題である。
我々は,任意のサブセット自動回帰モデル (AS-ARM) という,異なるモデルのクラスが解を持っていることを発見した。
我々は,AS-ARMがベンチマークタスクを埋め込んだ200M未満のパラメータモデル間で最先端の性能を実現し,コード生成における50倍のモデルの性能とほぼ一致していることを示す。
論文 参考訳(メタデータ) (2025-04-29T06:33:13Z) - Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力
本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。
PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文 参考訳(メタデータ) (2025-01-07T17:00:49Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Dynamic Alignment Mask CTC: Improved Mask-CTC with Aligned Cross Entropy [28.62712217754428]
動的アライメントMask CTCを提案する。
1) 動的プログラミングによるクロスエントロピー損失を最小限に抑えるモノトニックアライメント,(2) 動的レクリエーション, マスクをモデル予測トークンに置き換えて新しいトレーニングサンプルを作成する。
WSJ データセットを用いた実験により,AXE の損失だけでなく,修正法により Mask CTC の WER 性能が向上することが示された。
論文 参考訳(メタデータ) (2023-03-14T08:01:21Z) - Efficient Masked Autoencoders with Self-Consistency [34.7076436760695]
マスク付き画像モデリング(MIM)はコンピュータビジョンにおける強力な自己教師付き事前学習手法として認識されている。
本研究では,自己整合性(EMAE)を有する効率的なマスク付きオートエンコーダを提案し,事前学習効率を向上させる。
EMAEは、画像分類、オブジェクト検出、セマンティックセグメンテーションなど、さまざまな下流タスクにおける最先端の転送能力を一貫して取得する。
論文 参考訳(メタデータ) (2023-02-28T09:21:12Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - Masksembles for Uncertainty Estimation [60.400102501013784]
ディープニューラルネットワークは、その強みを巧みに実証しているが、その予測の信頼性を推定することは依然として困難である。
深層アンサンブルは不確かさを推定する最良の方法の1つと考えられているが、訓練や評価は非常に高価である。
mc-dropoutも人気の高い代替品で、安価だが信頼性も低い。
論文 参考訳(メタデータ) (2020-12-15T14:39:57Z) - Improving Self-supervised Pre-training via a Fully-Explored Masked
Language Model [57.77981008219654]
Masked Language Model (MLM)フレームワークは、自己教師型言語事前学習に広く採用されている。
そこで本研究では,テキストシーケンスを複数の非重複セグメントに分割するマスキング手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T21:28:14Z) - Semi-Autoregressive Training Improves Mask-Predict Decoding [119.8412758943192]
本研究では,マスク予測の半自己回帰動作を模倣した条件付きマスキング言語モデルSMARTを提案する。
SMARTでトレーニングされたモデルは、マスク予測デコードを使用すると高品質な変換を生成し、完全な自己回帰モデルで残りの性能ギャップを効果的に閉じる。
論文 参考訳(メタデータ) (2020-01-23T19:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。