論文の概要: Beyond Hard Masks: Progressive Token Evolution for Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2601.07351v2
- Date: Fri, 16 Jan 2026 06:24:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 14:30:44.022875
- Title: Beyond Hard Masks: Progressive Token Evolution for Diffusion Language Models
- Title(参考訳): ハードマスクを超えて: 拡散言語モデルのための進歩的なトークン進化
- Authors: Linhao Zhong, Linyu Wu, Bozhen Fang, Tianjian Feng, Chenchen Jing, Wen Wang, Jiaheng Zhang, Hao Chen, Chunhua Shen,
- Abstract要約: EvoToken-DLMは、ハードバイナリマスクをソフトトークン分布に置き換える、拡散に基づく新しい言語モデリング手法である。
EvoToken-DLMは優れた性能を実現し、強力な拡散ベースとマスク付きDLMベースラインを上回っている。
- 参考スコア(独自算出の注目度): 46.151072011636444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Language Models (DLMs) offer a promising alternative for language modeling by enabling parallel decoding through iterative refinement. However, most DLMs rely on hard binary masking and discrete token assignments, which hinder the revision of early decisions and underutilize intermediate probabilistic representations. In this paper, we propose EvoToken-DLM, a novel diffusion-based language modeling approach that replaces hard binary masks with evolving soft token distributions. EvoToken-DLM enables a progressive transition from masked states to discrete outputs, supporting revisable decoding. To effectively support this evolution, we introduce continuous trajectory supervision, which aligns training objectives with iterative probabilistic updates. Extensive experiments across multiple benchmarks show that EvoToken-DLM consistently achieves superior performance, outperforming strong diffusion-based and masked DLM baselines. Project webpage: https://aim-uofa.github.io/EvoTokenDLM.
- Abstract(参考訳): Diffusion Language Models (DLMs) は、反復的な洗練を通じて並列デコードを可能にすることで、言語モデリングの有望な代替手段を提供する。
しかし、ほとんどのDLMはハードバイナリマスクと離散トークン代入に依存しており、初期決定の修正を妨げ、中間確率表現を弱めている。
本稿では,ハードバイナリマスクをソフトトークン分布に置き換える新しい拡散型言語モデリング手法であるEvoToken-DLMを提案する。
EvoToken-DLMは、マスクされた状態から離散出力へのプログレッシブな遷移を可能にし、変更可能なデコーディングをサポートする。
この進化を効果的に支援するために、トレーニング目標と反復的確率的更新を整合させる継続的軌道監視を導入する。
複数のベンチマークにわたる大規模な実験により、EvoToken-DLMは一貫して優れた性能を達成し、強力な拡散ベースとマスク付きDLMベースラインを上回る性能を示した。
プロジェクトWebページ: https://aim-uofa.github.io/EvoTokenDLM.com
関連論文リスト
- Diffusion Language Models are Provably Optimal Parallel Samplers [15.981424915336001]
拡散言語モデル (DLM) は自己回帰モデルに代わる有望な代替品として登場した。
DLMをチェーン・オブ・シークエンスで拡張することで,任意の並列サンプリングアルゴリズムを最適なステップ数でシミュレートできることを示す。
論文 参考訳(メタデータ) (2025-12-31T18:03:05Z) - D$^{3}$ToM: Decider-Guided Dynamic Token Merging for Accelerating Diffusion MLLMs [22.78575203353886]
拡散に基づく多モード大言語モデル(拡散MLLM)は自己回帰モデルよりもかなり遅い推論を示す。
本稿では,拡散MLLMにおける推論を高速化する動的トークンマージ手法D$3$ToMを提案する。
実験によると、D$3$ToMは競合性能を維持しながら推論を加速する。
論文 参考訳(メタデータ) (2025-11-15T16:24:12Z) - Sequential Diffusion Language Models [110.06562906987052]
拡散言語モデル(DLM)は理論効率が強いが、固定長の復号化とキー値キャッシュとの非互換性によって制限される。
次点と次点の予測を統一するNext Sequence Prediction (NSP)を導入する。
本稿では,事前学習した自己回帰言語モデル(ALM)を最小限のコストで再現可能な逐次拡散言語モデル(SDLM)を提案する。
論文 参考訳(メタデータ) (2025-09-28T17:59:15Z) - Don't Settle Too Early: Self-Reflective Remasking for Diffusion Language Models [40.902681492117786]
RemeDiはマスクベースのDLMで、トークンの分布と各ステップにおけるトークン毎の信頼スコアを予測する。
モデルに不正トークンを検出して再マスクする教師付き微調整を含む、この能力をトレーニングするために、リマスク対応パイプラインをトレーニングします。
実験により、RemeDiは複数のデータセット上のオープンソースのDLMの最先端の結果を達成することが示された。
論文 参考訳(メタデータ) (2025-09-28T05:39:49Z) - A Survey on Diffusion Language Models [30.00199970146068]
拡散言語モデル(DLM)は、支配的な自己回帰(AR)パラダイムの代替である。
DLMは、推論遅延を減らし、双方向のコンテキストをキャプチャすることに固有の利点がある。
近年の進歩により、DLMは自己回帰に匹敵する性能を示すようになった。
論文 参考訳(メタデータ) (2025-08-14T17:47:22Z) - Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens [66.02261367232256]
MLLM(Multimodal Large Language Models)は、視覚的理解と生成を統一することを目的としている。
既存のアプローチは空間的トークンに依存しており、画像パッチは空間的順序に応じてエンコードされ配置される。
本稿では,個別の視覚トークンを学習するために拡散時間ステップを再構成し,適切な視覚言語を構築する。
論文 参考訳(メタデータ) (2025-04-20T16:14:28Z) - Large Language Diffusion Models [93.26422905620008]
大規模言語モデル(LLM)は自己回帰モデル(ARM)に依存していると考えられている。
我々は,事前学習および教師付き微調整パラダイムの下で,ゼロから学習した拡散モデルであるLLaDAを紹介する。
一般的なタスクや数学、コードなどに関する広範なベンチマークを通じて、LLaDAは強力なスケーラビリティを示し、自己構築されたARMベースラインと互換性のあるパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-02-14T08:23:51Z) - Multimodal Latent Language Modeling with Next-Token Diffusion [111.93906046452125]
マルチモーダル生成モデルは、離散データ(テキストやコードなど)と連続データ(画像、オーディオ、ビデオなど)の両方を扱う統一的なアプローチを必要とする。
因果変換器を用いて連続データと離散データをシームレスに統合する潜在言語モデリング(LatentLM)を提案する。
論文 参考訳(メタデータ) (2024-12-11T18:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。