論文の概要: Learning Unmasking Policies for Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2512.09106v2
- Date: Fri, 12 Dec 2025 12:48:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 13:50:29.092812
- Title: Learning Unmasking Policies for Diffusion Language Models
- Title(参考訳): 拡散言語モデルのためのアンマキング政策の学習
- Authors: Metod Jazbec, Theo X. Olausson, Louis Béthune, Pierre Ablin, Michael Kirchhof, João Monteiro, Victor Turrisi, Jason Ramapuram, Marco Cuturi,
- Abstract要約: 言語モデル(dLLM)は、多くのタスクにおいて、自己回帰的な処理の下流のパフォーマンスにマッチする。
特別なマスクトークンで満たされたバッファが、モデルの語彙からサンプリングされたトークンに徐々に置き換えられる。
本研究では,強化学習を用いたサンプリング手順の訓練を提案する。
- 参考スコア(独自算出の注目度): 33.44995119635116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion (Large) Language Models (dLLMs) now match the downstream performance of their autoregressive counterparts on many tasks, while holding the promise of being more efficient during inference. One particularly successful variant is masked discrete diffusion, in which a buffer filled with special mask tokens is progressively replaced with tokens sampled from the model's vocabulary. Efficiency can be gained by unmasking several tokens in parallel, but doing too many at once risks degrading the generation quality. Thus, one critical design aspect of dLLMs is the sampling procedure that selects, at each step of the diffusion process, which tokens to replace. Indeed, recent work has found that heuristic strategies such as confidence thresholding lead to both higher quality and token throughput compared to random unmasking. However, such heuristics have downsides: they require manual tuning, and we observe that their performance degrades with larger buffer sizes. In this work, we instead propose to train sampling procedures using reinforcement learning. Specifically, we formalize masked diffusion sampling as a Markov decision process in which the dLLM serves as the environment, and propose a lightweight policy architecture based on a single-layer transformer that maps dLLM token confidences to unmasking decisions. Our experiments show that these trained policies match the performance of state-of-the-art heuristics when combined with semi-autoregressive generation, while outperforming them in the full diffusion setting. We also examine the transferability of these policies, finding that they can generalize to new underlying dLLMs and longer sequence lengths. However, we also observe that their performance degrades when applied to out-of-domain data, and that fine-grained tuning of the accuracy-efficiency trade-off can be challenging with our approach.
- Abstract(参考訳): Diffusion (Large) Language Models (dLLMs) は、多くのタスクにおいて、自動回帰言語のパフォーマンスのダウンストリームにマッチすると同時に、推論時により効率的であることを約束する。
特別なマスクトークンで満たされたバッファが、モデルの語彙からサンプリングされたトークンに徐々に置き換えられる。
効率性は、複数のトークンを並行してアンマキングすることで得られるが、同時に生成品質を低下させるリスクが多すぎる。
したがって、dLLMs の重要な設計側面は、拡散プロセスの各ステップにおいて、置換すべきトークンを選択するサンプリング手順である。
実際、最近の研究によると、信頼のしきい値付けのようなヒューリスティックな戦略は、ランダムなアンマスキングよりも高い品質とトークンのスループットをもたらす。
しかし、このようなヒューリスティックスには欠点があり、手動チューニングが必要であり、バッファサイズが大きくなるとパフォーマンスが低下する。
そこで本研究では,強化学習を用いたサンプリング手順の訓練を提案する。
具体的には,dLLMが環境として機能するマルコフ決定プロセスとしてマスク拡散サンプリングを形式化し,dLLMトークンの信頼度をアンマキング決定にマッピングする単一層トランスフォーマーに基づく軽量なポリシーアーキテクチャを提案する。
実験の結果,これらのトレーニングされたポリシーは,半自己回帰生成と組み合わせることで,最先端のヒューリスティックスの性能と一致し,完全な拡散環境では優れていた。
また、これらのポリシーの転送可能性についても検討し、新しい基盤となるdLLMと長いシーケンス長に一般化できることを見出した。
しかし、ドメイン外データに適用するとパフォーマンスが低下し、精度と効率のトレードオフのきめ細かい調整が、我々のアプローチでは困難であることも観察できる。
関連論文リスト
- MARS-Sep: Multimodal-Aligned Reinforced Sound Separation [72.85468563236005]
MARS-Sepは音分離のための強化学習フレームワークである。
クリッピングされた信頼領域サロゲートによって最適化された、ファクタライズされたベータマスクポリシを学ぶ。
複数のベンチマークの実験は、テキスト、オーディオ、イメージ-キュード分離において一貫した利得を示している。
論文 参考訳(メタデータ) (2025-10-12T09:05:28Z) - Reward-Weighted Sampling: Enhancing Non-Autoregressive Characteristics in Masked Diffusion LLMs [44.55861996331439]
仮面拡散モデル (MDMs) は、大規模言語モデリングの非自己回帰的な代替手段として有望なものである。
MDMの標準的な復号法は、各拡散ステップにおける個々のトークンの信頼度に基づいて、独立してトークンを選択する。
本稿では,反復拡散過程において大域的な信号を提供するために,Reward-Weighted Smpling (RWS)を提案する。
論文 参考訳(メタデータ) (2025-08-31T05:48:30Z) - Plan for Speed: Dilated Scheduling for Masked Diffusion Language Models [13.575063025878208]
マスク付き拡散言語モデルは高速で非自己回帰的なテキスト生成を約束する。
モデルの信頼性に基づいてアンマスクするトークンを選択する既存のサンプルは、複数の位置を並列にアンマスクする際のインタラクションを無視する。
DUS(Dilated Unmasking Scheduler)は、列位置を非隣接拡張群に分割し、それらを並列に分割する推論のみのプランナーフリーな手法である。
論文 参考訳(メタデータ) (2025-06-23T18:49:23Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [60.407727995313074]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - Accelerated Sampling from Masked Diffusion Models via Entropy Bounded Unmasking [17.511240770486452]
仮面拡散モデル (MDM) は, 言語モデリングにおける自己回帰モデル (ARM) と比較して, 競合性能を示した。
本稿では,Entropy bounded unmasking 手法を用いて,既存のサンプルのドロップイン置換であるEB-Samplerを紹介する。
EB-Samplerは、パフォーマンスを損なうことなく、標準的なコーディングと数学推論ベンチマークで、最先端のMDMのサンプリングを約2~3倍高速化する。
論文 参考訳(メタデータ) (2025-05-30T17:52:55Z) - Generalized Interpolating Discrete Diffusion [65.74168524007484]
仮面拡散はその単純さと有効性のために一般的な選択である。
ノイズ発生過程の設計において、より柔軟性の高い離散拡散(GIDD)を補間する新しいファミリを一般化する。
GIDDの柔軟性をエクスプロイトし、マスクと均一ノイズを組み合わせたハイブリッドアプローチを探索し、サンプル品質を向上する。
論文 参考訳(メタデータ) (2025-03-06T14:30:55Z) - Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation [49.827306773992376]
連続的テスト時間適応(CTTA)は、ソース事前学習モデルから目標分布の連続的な変化に移行するために提案される。
提案手法は,CTTAタスクの分類とセグメンテーションの両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T15:34:52Z) - Improving Self-supervised Pre-training via a Fully-Explored Masked
Language Model [57.77981008219654]
Masked Language Model (MLM)フレームワークは、自己教師型言語事前学習に広く採用されている。
そこで本研究では,テキストシーケンスを複数の非重複セグメントに分割するマスキング手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T21:28:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。