論文の概要: Lookahead Unmasking Elicits Accurate Decoding in Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2511.05563v1
- Date: Tue, 04 Nov 2025 02:37:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.44539
- Title: Lookahead Unmasking Elicits Accurate Decoding in Diffusion Language Models
- Title(参考訳): Lookahead Unmasking Elicitscurcurate Decoding in Diffusion Language Models (英語)
- Authors: Sanghyun Lee, Seungryong Kim, Jongho Park, Dongmin Park,
- Abstract要約: Masked Diffusion Models (MDM) は、反復的にトークンをアンマキングすることで生成される言語モデルであるが、その性能はアンマキングの推測時間順序に依存する。
提案するLookUM(LookUM)は,これらの問題に対処し,サンプリングを可能な全注文に対して経路選択として再構成する。
LookUMはピーク性能を達成するために2~3つの経路しか必要とせず、極めて効率的な経路選択を示す。
- 参考スコア(独自算出の注目度): 51.12873073612084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked Diffusion Models (MDMs) as language models generate by iteratively unmasking tokens, yet their performance crucially depends on the inference time order of unmasking. Prevailing heuristics, such as confidence based sampling, are myopic: they optimize locally, fail to leverage extra test-time compute, and let early decoding mistakes cascade. We propose Lookahead Unmasking (LookUM), which addresses these concerns by reformulating sampling as path selection over all possible unmasking orders without the need for an external reward model. Our framework couples (i) a path generator that proposes paths by sampling from pools of unmasking sets with (ii) a verifier that computes the uncertainty of the proposed paths and performs importance sampling to subsequently select the final paths. Empirically, erroneous unmasking measurably inflates sequence level uncertainty, and our method exploits this to avoid error-prone trajectories. We validate our framework across six benchmarks, such as mathematics, planning, and coding, and demonstrate consistent performance improvements. LookUM requires only two to three paths to achieve peak performance, demonstrating remarkably efficient path selection. The consistent improvements on both LLaDA and post-trained LLaDA 1.5 are particularly striking: base LLaDA with LookUM rivals the performance of RL-tuned LLaDA 1.5, while LookUM further enhances LLaDA 1.5 itself showing that uncertainty based verification provides orthogonal benefits to reinforcement learning and underscoring the versatility of our framework. Code will be publicly released.
- Abstract(参考訳): Masked Diffusion Models (MDM) は、反復的にアンマキングトークンによって生成される言語モデルであるが、その性能はアンマスキーの推論時間順序に大きく依存する。
信頼に基づくサンプリングなどの一般的なヒューリスティックは、ローカルで最適化され、テスト時の余分な計算を利用できなくなり、早期のデコードミスをカスケードにします。
提案するLookUM(LookUM)は,外部報酬モデルを必要とせずに,可能な全ての注文に対して,サンプリングを経路選択として再構成することで,これらの問題に対処する。
フレームワークカップル
一 未メイキングセットのプールからサンプリングして経路を提案する経路生成装置
二 提案した経路の不確かさを計算し、次に最終経路を選択するために重要サンプリングを行う検証器。
提案手法は, 誤マスキングによってシーケンスレベルの不確かさが増大し, エラー発生経路の回避を図っている。
数学、計画、コーディングの6つのベンチマークでフレームワークを検証し、一貫したパフォーマンス改善を実証する。
LookUMはピーク性能を達成するために2~3つの経路しか必要とせず、極めて効率的な経路選択を示す。
ベースLLaDAはLLで調整したLLaDA 1.5の性能に匹敵するが、LookUMはLLaDA 1.5自体をさらに強化し、不確実性に基づく検証は強化学習に直交的利益をもたらし、我々のフレームワークの汎用性を裏付けることを示している。
コードは公開されます。
関連論文リスト
- Saber: An Efficient Sampling with Adaptive Acceleration and Backtracking Enhanced Remasking for Diffusion Language Model [98.35868970993232]
拡散言語モデル(DLM)は、支配的な自己回帰パラダイムに代わる強力で有望な選択肢として現れています。
コード生成における推論速度と出力品質の向上を実現するために,適応加速度を用いた効率的なサンプリングとバックトラック強化リマッシング(セイバー)を導入する。
論文 参考訳(メタデータ) (2025-10-20T23:38:12Z) - Tree Reward-Aligned Search for TReASURe in Masked Diffusion Language Models [13.433506313486701]
ツリー検索は、生成モデルとタスク固有の報酬をテスト時に整合させる強力なフレームワークとして登場した。
これらの問題に対処する木探索テスト時間アライメント手法であるTReASUReを提案する。
TReASUReは、パープレキシティ、言語受容性、感情と毒性の制御に関する最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-09-27T06:22:45Z) - Spiffy: Multiplying Diffusion LLM Acceleration via Lossless Speculative Decoding [40.96405124314983]
拡散LDM (dLLMs) は、最近自己回帰LDM (AR-LLMs) の強力な代替品として登場した。
現在利用可能なオープンソースdLLMは、多くの場合、より低いレートで生成される。
本稿では,dLLM推論を$mathbf2.8-3.1times$で高速化し,モデルの出力分布を確実に保存する投機的復号アルゴリズムであるSpiffyを提案する。
論文 参考訳(メタデータ) (2025-09-22T17:58:21Z) - Towards Better Code Generation: Adaptive Decoding with Uncertainty Guidance [42.737012213197865]
AdaDecはアダプティブなデコーディングフレームワークで、ルックアヘッドベースで不確実性を認識した停止と再実行のメカニズムを採用している。
AdaDecは、greedyデコーディングと比較して、Pass@1の精度で20.9%の絶対的なゲインを達成する。
AdaDecは、必要に応じて再ランクを適用することで、計算オーバーヘッドとレイテンシを低減し、信頼性とともに効率を向上する。
論文 参考訳(メタデータ) (2025-06-10T16:49:46Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [60.407727995313074]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - Teaching Your Models to Understand Code via Focal Preference Alignment [70.71693365502212]
既存の手法では、テストケースの成功率に基づいてn個の候補解が評価される。
このアプローチは、特定のエラーを特定するのではなく、失敗するコードブロック全体を整列するので、意味のあるエラーと訂正の関係を捉えるのに必要な粒度が欠けている。
我々は、人間の反復デバッグを模倣してコードLLMを洗練させる新しい優先順位調整フレームワークであるTarget-DPOを提案する。
論文 参考訳(メタデータ) (2025-03-04T16:56:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。