論文の概要: Beyond Masks: Efficient, Flexible Diffusion Language Models via Deletion-Insertion Processes
- arxiv url: http://arxiv.org/abs/2603.23507v1
- Date: Wed, 04 Mar 2026 12:53:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.989181
- Title: Beyond Masks: Efficient, Flexible Diffusion Language Models via Deletion-Insertion Processes
- Title(参考訳): マスクを超えて: 削除-挿入プロセスによる効率的なフレキシブル拡散言語モデル
- Authors: Fangyu Ding, Ding Ding, Sijin Chen, Kaibo Wang, Peng Xu, Zijin Feng, Haoli Bai, Kai Han, Youliang Yan, Binhang Yuan, Jiacheng Sun,
- Abstract要約: DID(Deletion-Insertion Diffusion Language Model)を提案する。
DIDはトークンの削除と挿入を離散拡散過程として厳格に定式化する。
固定長および可変長の設定に対する実験により,MDLMと既存の挿入型LMのベースラインよりもDIDの利点が示された。
- 参考スコア(独自算出の注目度): 41.57128726515332
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Masked Diffusion Language Models (MDLMs) relying on token masking and unmasking have shown promise in language modeling, their computational efficiency and generation flexibility remain constrained by the masking paradigm. In this paper, we propose Deletion-Insertion Diffusion language models (DID) that rigorously formulate token deletion and insertion as discrete diffusion processes, replacing the masking and unmasking processes in current MDLMs. DID improves training and inference efficiency by eliminating two major sources of computational overhead in MDLMs: the computations on non-informative 1) <MASK> tokens inherent to the paradigm, and 2) <PAD> tokens introduced in variable-length settings. Furthermore, DID offers greater flexibility by: 1) natively supporting variable-length sequences without requiring fixed-length padding, and 2) an intrinsic self-correction mechanism during generation due to insertion that dynamically adjusts token positions. To train DID, we design a score-based approach that assigns scores to token insertion operations and derive appropriate training objectives. The objectives involve subsequence counting problems, which we efficiently solve via a parallelized dynamic programming algorithm. Our experiments across fixed and variable-length settings demonstrate the advantage of DID over baselines of MDLMs and existing insertion-based LMs, in terms of modeling performance, sampling quality, and training/inference speed, without any hyperparameter tuning.
- Abstract(参考訳): Masked Diffusion Language Models (MDLM) はトークンマスキングとアンマスキングに依存しているが、その計算効率と生成の柔軟性はマスキングパラダイムによって制約されている。
本稿では,トークンの削除と挿入を離散拡散プロセスとして厳格に定式化し,現在のMDLMにおけるマスキングとアンマスキングを置き換えたDID(Deletion-Insertion Diffusion Language Model)を提案する。
DIDはMDLMにおける2つの主要な計算オーバーヘッド源を排除し、トレーニングと推論効率を改善する:非インフォームティブ上の計算
1) パラダイム固有の<MASK>トークン,及び
2) <PAD>トークンは可変長設定で導入された。
さらに、DIDはより柔軟性を提供します。
1)固定長のパディングを必要とせず、可変長の配列をネイティブにサポートし、
2) トークン位置を動的に調整する挿入による生成中の固有の自己補正機構。
DIDをトレーニングするために、トークン挿入操作にスコアを割り当て、適切なトレーニング目標を導出するスコアベースのアプローチを設計する。
目的は、並列化動的プログラミングアルゴリズムを用いて効率よく解くサブシーケンスカウント問題である。
MDLMと既存の挿入型LMのベースラインを超越したDIDの利点を,過パラメータチューニングを伴わないモデル性能,サンプリング品質,トレーニング/推論速度で実証した。
関連論文リスト
- DOS: Dependency-Oriented Sampler for Masked Diffusion Language Models [2.3863052459868297]
本稿では、トークンの更新を世代毎に通知するために、トークン間の依存関係を活用する、トレーニング不要なデコード戦略を提案する。
経験的結果は、DOSはコード生成と数学的推論の両方において、常に優れた性能を達成していることを示している。
論文 参考訳(メタデータ) (2026-03-16T14:28:39Z) - DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention [2.7422645382944935]
そこで我々はDyLLMを提案する。DyLLMは正規トークンのみを選択的に計算することでデコーディングを高速化する学習自由推論フレームワークである。
DyLLMは様々な推論とコード生成ベンチマークで最大9.6倍のスループットを実現している。
論文 参考訳(メタデータ) (2026-03-09T07:02:01Z) - Activation Steering for Masked Diffusion Language Models [1.0980666029958932]
マスケ拡散言語モデルは反復的復調過程を通じてテキストを生成する。
本稿では,MDLMのためのアクティベーションステアリングフレームワークを提案する。
LLaDA-8B-Instructの実験では、高レベル属性の信頼性変調が示されている。
論文 参考訳(メタデータ) (2025-12-30T11:10:52Z) - Learning Unmasking Policies for Diffusion Language Models [33.44995119635116]
言語モデル(dLLM)は、多くのタスクにおいて、自己回帰的な処理の下流のパフォーマンスにマッチする。
特別なマスクトークンで満たされたバッファが、モデルの語彙からサンプリングされたトークンに徐々に置き換えられる。
本研究では,強化学習を用いたサンプリング手順の訓練を提案する。
論文 参考訳(メタデータ) (2025-12-09T20:44:33Z) - Saber: An Efficient Sampling with Adaptive Acceleration and Backtracking Enhanced Remasking for Diffusion Language Model [98.35868970993232]
拡散言語モデル(DLM)は、支配的な自己回帰パラダイムに代わる強力で有望な選択肢として現れています。
コード生成における推論速度と出力品質の向上を実現するために,適応加速度を用いた効率的なサンプリングとバックトラック強化リマッシング(セイバー)を導入する。
論文 参考訳(メタデータ) (2025-10-20T23:38:12Z) - Soft-Masked Diffusion Language Models [35.191030145577145]
マスクトークンの埋め込みと,上位k$の予測トークンの埋め込みを動的にブレンドする新しい手法であるソフトマスキング(SM)を導入する。
SMを用いた169Mパラメータモデルの事前学習を継続すると、パープレキシティとMAUVEスコアが向上することを示した。
最新の拡散モデルDream-7BとDream-Coder-7BをSMで微調整する。
論文 参考訳(メタデータ) (2025-10-20T06:42:03Z) - Beyond Fixed: Training-Free Variable-Length Denoising for Diffusion Large Language Models [74.15250326312179]
拡散大言語モデルは効率的な並列生成とグローバルモデリングを提供する。
DLLMの主流の応用は、静的に事前定義された生成長の必要性によって妨げられている。
DAEDALは,動的適応長拡張を可能にする新しい学習自由化戦略である。
論文 参考訳(メタデータ) (2025-08-01T17:56:07Z) - Masking as an Efficient Alternative to Finetuning for Pretrained
Language Models [49.64561153284428]
我々は、微調整によって修正する代わりに、事前訓練された重量に対する選択的な二乗マスクを学習する。
内在的評価では、マスキング言語モデルによって計算された表現が、下流タスクの解決に必要な情報を符号化していることを示す。
論文 参考訳(メタデータ) (2020-04-26T15:03:47Z) - UniLMv2: Pseudo-Masked Language Models for Unified Language Model
Pre-Training [152.63467944568094]
本稿では,自動エンコーディングと部分的自己回帰型言語モデリングタスクの両方に対して,統一言語モデルを事前学習することを提案する。
実験の結果,PMLMを用いて事前学習した統一言語モデルは,多種多様な自然言語理解・生成タスクにおいて,新たな最先端の成果が得られることがわかった。
論文 参考訳(メタデータ) (2020-02-28T15:28:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。