論文の概要: Plan for Speed: Dilated Scheduling for Masked Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2506.19037v3
- Date: Thu, 24 Jul 2025 20:58:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 14:14:27.246414
- Title: Plan for Speed: Dilated Scheduling for Masked Diffusion Language Models
- Title(参考訳): 高速化計画:擬似拡散言語モデルのための拡張スケジューリング
- Authors: Omer Luxembourg, Haim Permuter, Eliya Nachmani,
- Abstract要約: マスク付き拡散言語モデルは高速で非自己回帰的なテキスト生成を約束する。
モデルの信頼性に基づいてアンマスクするトークンを選択する既存のサンプルは、複数の位置を並列にアンマスクする際のインタラクションを無視する。
DUS(Dilated Unmasking Scheduler)は、列位置を非隣接拡張群に分割し、それらを並列に分割する推論のみのプランナーフリーな手法である。
- 参考スコア(独自算出の注目度): 13.575063025878208
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked diffusion language models (MDLMs) promise fast, non-autoregressive text generation, yet existing samplers, which pick tokens to unmask based on model confidence, ignore interactions when unmasking multiple positions in parallel and effectively reduce to slow, autoregressive behavior. We propose the Dilated Unmasking Scheduler (DUS), an inference-only, planner-model-free method that partitions sequence positions into non-adjacent dilated groups and unmasked them in parallel so as to minimize an upper bound on joint entropy gain at each denoising step. By explicitly trading off the number of network calls against generation quality, DUS recovers most of the performance lost under traditional parallel unmasking strategies. Across math (GSM8K, MATH500), code (HumanEval, MBPP) and general-knowledge benchmarks (BBH, MMLU-Pro), DUS outperforms confidence-based planners, without modifying the underlying denoiser, and reveals the true speed-quality frontier of MDLMs.
- Abstract(参考訳): マスク付き拡散言語モデル(MDLM)は、高速で非自己回帰的なテキスト生成を約束するが、既存のサンプルは、モデルの信頼性に基づいてトークンをアンマスクする。
DUS(Dilated Unmasking Scheduler)は,非随伴拡張群に配列位置を分割し,各段階の関節エントロピーゲインの上限を最小化するために,並列にそれらを分割する推論専用プランナーフリー手法である。
DUSは、生成品質に対するネットワーク呼び出しの数を明示的に取り除くことで、従来の並列アンマキング戦略の下で失われたパフォーマンスのほとんどを回復する。
Across math (GSM8K, MATH500), code (HumanEval, MBPP), and general-knowledge benchmarks (BBH, MMLU-Pro), DUS は、基礎となるデノイザを変更せずに信頼性ベースのプランナーを上回り、MDLMの真のスピード品質のフロンティアを明らかにする。
関連論文リスト
- Sampling from Your Language Model One Byte at a Time [82.71473348639489]
トークン化はモデルの世代に歪みをもたらす可能性がある。
トークンライザのミスマッチは、しばしばモデル構成と相互運用性を妨げる。
本稿では,BPEトークン化器を用いた自己回帰型LMを文字レベルあるいはバイトレベルのLMに変換する推論時間を提案する。
論文 参考訳(メタデータ) (2025-06-17T02:37:04Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [50.9948753314669]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - Accelerated Sampling from Masked Diffusion Models via Entropy Bounded Unmasking [17.511240770486452]
仮面拡散モデル (MDM) は, 言語モデリングにおける自己回帰モデル (ARM) と比較して, 競合性能を示した。
本稿では,Entropy bounded unmasking 手法を用いて,既存のサンプルのドロップイン置換であるEB-Samplerを紹介する。
EB-Samplerは、パフォーマンスを損なうことなく、標準的なコーディングと数学推論ベンチマークで、最先端のMDMのサンプリングを約2~3倍高速化する。
論文 参考訳(メタデータ) (2025-05-30T17:52:55Z) - Partition Generative Modeling: Masked Modeling Without Masks [1.4110007887109783]
分割生成モデル(PGM)はマスク生成モデル(MGM)の新しいアプローチである
1024トークンのコンテキスト長を持つOpenWebTextの実験では、PGMがレイテンシとスループットの両方で少なくとも5倍改善されていることが示されている。
論文 参考訳(メタデータ) (2025-05-24T21:44:32Z) - Beyond Masked and Unmasked: Discrete Diffusion Models via Partial Masking [17.371579113481644]
マスケード拡散モデル(MDM)は、離散データのための強力な生成モデルであり、段階的にトークンを配列で解き放つことでサンプルを生成する。
本稿では、トークンがマスクされた状態とマスクされていない状態の間を中間状態にすることでMDMを増強する部分マスキングスキーム(Prime)を提案する。
本手法は,多種多様な生成モデルタスクに対して優れた性能を示す。
論文 参考訳(メタデータ) (2025-05-24T04:16:40Z) - Insertion Language Models: Sequence Generation with Arbitrary-Position Insertions [41.45689715854447]
Insertion Language Models (ILM)を導入し、任意の位置にトークンを挿入することを学習する。
ILMはトークン間の強い依存関係を表現することができ、任意の順序でシーケンスを生成する能力により、正確にシーケンスをモデル化することができる。
論文 参考訳(メタデータ) (2025-05-09T03:29:15Z) - Reviving Any-Subset Autoregressive Models with Principled Parallel Sampling and Speculative Decoding [55.2480439325792]
任意の順序言語モデルでは、正しい関節分布からトークンを並列にサンプリングする方法がオープンな問題である。
我々は,任意のサブセット自動回帰モデル (AS-ARM) という,異なるモデルのクラスが解を持っていることを発見した。
我々は,AS-ARMがベンチマークタスクを埋め込んだ200M未満のパラメータモデル間で最先端の性能を実現し,コード生成における50倍のモデルの性能とほぼ一致していることを示す。
論文 参考訳(メタデータ) (2025-04-29T06:33:13Z) - Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力
本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。
PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文 参考訳(メタデータ) (2025-01-07T17:00:49Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Dynamic Alignment Mask CTC: Improved Mask-CTC with Aligned Cross Entropy [28.62712217754428]
動的アライメントMask CTCを提案する。
1) 動的プログラミングによるクロスエントロピー損失を最小限に抑えるモノトニックアライメント,(2) 動的レクリエーション, マスクをモデル予測トークンに置き換えて新しいトレーニングサンプルを作成する。
WSJ データセットを用いた実験により,AXE の損失だけでなく,修正法により Mask CTC の WER 性能が向上することが示された。
論文 参考訳(メタデータ) (2023-03-14T08:01:21Z) - Efficient Masked Autoencoders with Self-Consistency [34.7076436760695]
マスク付き画像モデリング(MIM)はコンピュータビジョンにおける強力な自己教師付き事前学習手法として認識されている。
本研究では,自己整合性(EMAE)を有する効率的なマスク付きオートエンコーダを提案し,事前学習効率を向上させる。
EMAEは、画像分類、オブジェクト検出、セマンティックセグメンテーションなど、さまざまな下流タスクにおける最先端の転送能力を一貫して取得する。
論文 参考訳(メタデータ) (2023-02-28T09:21:12Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - Masksembles for Uncertainty Estimation [60.400102501013784]
ディープニューラルネットワークは、その強みを巧みに実証しているが、その予測の信頼性を推定することは依然として困難である。
深層アンサンブルは不確かさを推定する最良の方法の1つと考えられているが、訓練や評価は非常に高価である。
mc-dropoutも人気の高い代替品で、安価だが信頼性も低い。
論文 参考訳(メタデータ) (2020-12-15T14:39:57Z) - Improving Self-supervised Pre-training via a Fully-Explored Masked
Language Model [57.77981008219654]
Masked Language Model (MLM)フレームワークは、自己教師型言語事前学習に広く採用されている。
そこで本研究では,テキストシーケンスを複数の非重複セグメントに分割するマスキング手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T21:28:14Z) - Semi-Autoregressive Training Improves Mask-Predict Decoding [119.8412758943192]
本研究では,マスク予測の半自己回帰動作を模倣した条件付きマスキング言語モデルSMARTを提案する。
SMARTでトレーニングされたモデルは、マスク予測デコードを使用すると高品質な変換を生成し、完全な自己回帰モデルで残りの性能ギャップを効果的に閉じる。
論文 参考訳(メタデータ) (2020-01-23T19:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。