論文の概要: NAVIRA: Decoupled Stochastic Remasking for Masked Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2606.06031v1
- Date: Thu, 04 Jun 2026 11:24:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.749781
- Title: NAVIRA: Decoupled Stochastic Remasking for Masked Diffusion Language Models
- Title(参考訳): NAVIRA:masked Diffusion Language Modelのための確率的リマッシングの分離
- Authors: Andrey Fomenko, Maksim Kryzhanovskiy, Svetlana Glazyrina, Roman Ischenko,
- Abstract要約: PRISMはトークンレベルの品質スコアを学習し、信頼できないトークンを再マスクすることでこの問題に対処する。
この2つの操作を分離する推論時間復号法であるNAVIRAを提案する。
温度制御されたリメイキングは、同じ位置の繰り返し補正を減らす。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked diffusion language models generate text by iteratively unmasking many tokens in parallel, but this speed comes with a correction problem: tokens generated in the same step are predicted from marginal distributions, and early local dependency errors can later contaminate the context. PRISM addresses this by learning token-level quality scores and remasking unreliable tokens, but its inference rule is coupled: the same forward pass both detects low-quality tokens and computes logits for their replacements, so the erroneous tokens still condition regeneration. We propose NAVIRA, an inference-time decoding policy that separates these two operations and samples remasking positions stochastically. A first forward pass scores tokens; selected tokens are masked; a second forward pass regenerates from the cleaned context. Temperature-controlled remasking reduces repeated correction of the same positions and balances fluency against diversity. In controlled experiments with a 170M masked diffusion language model, decoupling improves fluency, while scheduled stochastic remasking preserves entropy and achieves stronger LLM-judge scores under larger forward-pass budgets. These results show that remasking policy, not only the learned quality signal, is central to reliable masked-diffusion text generation.
- Abstract(参考訳): マスク付き拡散言語モデルは、反復的に多くのトークンを同時に解き放つことによってテキストを生成するが、この速度には修正の問題が伴う:同じステップで生成されたトークンは、限界分布から予測され、初期の局所的な依存関係エラーは、後にコンテキストを汚染する。
PRISMは、トークンレベルの品質スコアを学習し、信頼できないトークンを再メイキングすることでこの問題に対処するが、その推論ルールは結合されている。
我々は,この2つの操作を分離し,確率的に位置を復元する推論時復号法であるNAVIRAを提案する。
第1のフォワードパスはトークンをスコアし、選択されたトークンはマスクされ、第2のフォワードパスはクリーン化されたコンテキストから再生される。
温度制御されたリメイキングは、同じ位置の繰り返し補正を減らし、多様性に対して流線型をバランスさせる。
170Mのマスク付き拡散言語モデルによる制御実験では、デカップリングは流速を向上する一方、スケジュールされた確率的リマッシングはエントロピーを保ち、より大きなフォワードパス予算の下で強力なLLM-judgeスコアを達成する。
これらの結果は、学習された品質信号だけでなく、リマキングポリシーが、信頼性の高いマスク拡散テキスト生成の中心であることを示している。
関連論文リスト
- SimSD: Simple Speculative Decoding in Diffusion Language Models [61.33773959352141]
拡散大言語モデル (dLLMs) は、並列またはブロックワイド復号による高速な推論を提供する。
彼らのマスク付き言語モデリングの定式化は、標準的なトークンレベルの投機的復号法とは相容れないままである。
我々は,dLLMに時間的に有効なトークンレベルのコンテキストを付与する,SimSDと呼ばれるdLLMの投機的復号アルゴリズムを提案する。
提案手法は,平均生成品質を維持しつつ,最大7.46倍高い復号スループットを実現する。
論文 参考訳(メタデータ) (2026-06-01T17:46:46Z) - Dependency-Guided Parallel Decoding in Discrete Diffusion Language Models [21.699371484195865]
我々は,dLLMの最終隠れ状態にアタッチする軽量依存予測器DEMASKを提案する。
実証的に、DEMASKはDream-7Bで1.7-2.2$times$ Speedupを達成し、信頼性ベースのベースラインやKLベースのベースラインと比較して精度が向上した。
論文 参考訳(メタデータ) (2026-04-02T22:21:24Z) - Rejection Mixing: Fast Semantic Propagation of Mask Tokens for Efficient DLLM Inference [58.189320101488725]
DLLMは高速な非自己回帰推論を約束するが、並列デコーディングにおいて厳しい品質と速度のトレードオフを被る。
我々は、連続表現を離散デコードプロセスに統合することでこの問題に対処する。
本稿では,初期マスキング状態と最終復号化トークン状態の中間として,新しい連続混合状態を導入するフレームワークであるReMixを提案する。
論文 参考訳(メタデータ) (2026-02-26T11:08:11Z) - Where-to-Unmask: Ground-Truth-Guided Unmasking Order Learning for Masked Diffusion Language Models [17.18632315520133]
Masked Diffusion Language Modelsは、マスク付きトークンを反復的に充填することでテキストを生成する。
Gt-Marginは、部分的にマスキングされた各状態の下で、より簡単な位置を優先するオラクルアンマスキング順序を与える。
マスク付きコンテキストからオーラクルの注文を模倣するために,教師付きアンマスキングプランナーを学習 to ランクで訓練する。
論文 参考訳(メタデータ) (2026-02-10T07:56:46Z) - CORE: Context-Robust Remasking for Diffusion Language Models [51.59514489363897]
我々は、推論時リビジョンのためのトレーニング不要フレームワークであるContext-Robust Remasking (CORE)を提案する。
静的トークンの確率を信頼するのではなく、COREは、ターゲットとなるマスク付きコンテキストの摂動に対する感受性を示すことによって、コンテキスト不安定なトークンを識別する。
LLaDA-8B-Baseでは、COREは推論とコードベンチマークの間で一貫した改善を行い、計算に適合したベースラインを上回り、MBPPを最大9.2%改善した。
論文 参考訳(メタデータ) (2026-02-04T00:12:30Z) - Learning Unmasking Policies for Diffusion Language Models [33.44995119635116]
言語モデル(dLLM)は、多くのタスクにおいて、自己回帰的な処理の下流のパフォーマンスにマッチする。
特別なマスクトークンで満たされたバッファが、モデルの語彙からサンプリングされたトークンに徐々に置き換えられる。
本研究では,強化学習を用いたサンプリング手順の訓練を提案する。
論文 参考訳(メタデータ) (2025-12-09T20:44:33Z) - Don't Settle Too Early: Self-Reflective Remasking for Diffusion Language Models [40.902681492117786]
RemeDiはマスクベースのDLMで、トークンの分布と各ステップにおけるトークン毎の信頼スコアを予測する。
モデルに不正トークンを検出して再マスクする教師付き微調整を含む、この能力をトレーニングするために、リマスク対応パイプラインをトレーニングします。
実験により、RemeDiは複数のデータセット上のオープンソースのDLMの最先端の結果を達成することが示された。
論文 参考訳(メタデータ) (2025-09-28T05:39:49Z) - Blockwise SFT for Diffusion Language Models: Reconciling Bidirectional Attention and Autoregressive Decoding [60.06816407728172]
離散拡散言語モデルは、テキスト生成に強い可能性を示している。
半自己回帰推論による微調整ミスアライメントの標準化
我々は、応答を固定サイズブロックに分割するBlockwise SFTを提案する。
論文 参考訳(メタデータ) (2025-08-27T02:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。