論文の概要: dUltra: Ultra-Fast Diffusion Language Models via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.21446v1
- Date: Wed, 24 Dec 2025 23:31:48 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:54:10.864467
- Title: dUltra: Ultra-Fast Diffusion Language Models via Reinforcement Learning
- Title(参考訳): dUltra:強化学習による超高速拡散言語モデル
- Authors: Shirui Chen, Jiantao Jiao, Lillian J. Ratliff, Banghua Zhu,
- Abstract要約: マスク付き拡散言語モデルは並列トークン生成の可能性を秘めている。
オープンソースのMDLMは、モデルフォワードパス毎に5トークン未満をデコードする。
dUltraは効率的な並列デコーディングのためのアンマスク戦略を学ぶ。
- 参考スコア(独自算出の注目度): 36.12942468805232
- License:
- Abstract: Masked diffusion language models (MDLMs) offer the potential for parallel token generation, but most open-source MDLMs decode fewer than 5 tokens per model forward pass even with sophisticated sampling strategies. As a result, their sampling speeds are often comparable to AR + speculative decoding schemes, limiting their advantage over mainstream autoregressive approaches. Existing distillation-based accelerators (dParallel, d3LLM) finetune MDLMs on trajectories generated by a base model, which can become off-policy during finetuning and restrict performance to the quality of the base model's samples. We propose \texttt{dUltra}, an on-policy reinforcement learning framework based on Group Relative Policy Optimization (GRPO) that learns unmasking strategies for efficient parallel decoding. dUltra introduces an unmasking planner head that predicts per-token unmasking likelihoods under independent Bernoulli distributions. We jointly optimize the base diffusion LLM and the unmasking order planner using reward signals combining verifiable reward, distillation reward, and the number of unmasking steps. Across mathematical reasoning and code generation tasks, dUltra improves the accuracy--efficiency trade-off over state-of-the-art heuristic and distillation baselines, moving towards achieving ``diffusion supremacy'' over autoregressive models.
- Abstract(参考訳): 仮面拡散言語モデル(MDLM)は並列トークン生成の可能性を秘めているが、ほとんどのオープンソースMDLMは、洗練されたサンプリング戦略であっても、モデル転送毎に5トークン未満のデコードを行う。
結果として、サンプリング速度はAR + 投機的復号化スキームに匹敵することが多く、主流の自己回帰的アプローチに対する優位性を制限している。
既存の蒸留型加速器 (dParallel, d3LLM) は, 基礎モデルが生成する軌道上の微粉MDLMを微粉化時に非政治的になり, 性能を基礎モデルの試料の品質に制限する。
本稿では,グループ相対政策最適化(GRPO)に基づくオンライン強化学習フレームワークである‘texttt{dUltra} を提案する。
dUltraは、独立したベルヌーイ分布の下で、トーケン当たりのアンマスキー確率を予測するアンマスキー・プランナーヘッドを導入している。
我々は,検証可能な報酬,蒸留報酬,未加工ステップ数を組み合わせた報酬信号を用いて,ベース拡散LDMと未加工注文プランナーを協調的に最適化する。
数学的推論とコード生成タスク全体にわたって、dUltraは、最先端のヒューリスティックと蒸留のベースラインに対する精度-効率のトレードオフを改善し、自己回帰モデルよりも‘diffusion supremacy’を達成しようとしている。
関連論文リスト
- Learning Unmasking Policies for Diffusion Language Models [33.44995119635116]
言語モデル(dLLM)は、多くのタスクにおいて、自己回帰的な処理の下流のパフォーマンスにマッチする。
特別なマスクトークンで満たされたバッファが、モデルの語彙からサンプリングされたトークンに徐々に置き換えられる。
本研究では,強化学習を用いたサンプリング手順の訓練を提案する。
論文 参考訳(メタデータ) (2025-12-09T20:44:33Z) - Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - Lookahead Unmasking Elicits Accurate Decoding in Diffusion Language Models [51.12873073612084]
Masked Diffusion Models (MDM) は、反復的にトークンをアンマキングすることで生成される言語モデルであるが、その性能はアンマキングの推測時間順序に依存する。
提案するLookUM(LookUM)は,これらの問題に対処し,サンプリングを可能な全注文に対して経路選択として再構成する。
LookUMはピーク性能を達成するために2~3つの経路しか必要とせず、極めて効率的な経路選択を示す。
論文 参考訳(メタデータ) (2025-11-04T02:37:37Z) - Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z) - Plan for Speed: Dilated Scheduling for Masked Diffusion Language Models [13.575063025878208]
マスク付き拡散言語モデルは高速で非自己回帰的なテキスト生成を約束する。
モデルの信頼性に基づいてアンマスクするトークンを選択する既存のサンプルは、複数の位置を並列にアンマスクする際のインタラクションを無視する。
DUS(Dilated Unmasking Scheduler)は、列位置を非隣接拡張群に分割し、それらを並列に分割する推論のみのプランナーフリーな手法である。
論文 参考訳(メタデータ) (2025-06-23T18:49:23Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [60.407727995313074]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - Reviving Any-Subset Autoregressive Models with Principled Parallel Sampling and Speculative Decoding [55.2480439325792]
任意の順序言語モデルでは、正しい関節分布からトークンを並列にサンプリングする方法がオープンな問題である。
我々は,任意のサブセット自動回帰モデル (AS-ARM) という,異なるモデルのクラスが解を持っていることを発見した。
我々は,AS-ARMがベンチマークタスクを埋め込んだ200M未満のパラメータモデル間で最先端の性能を実現し,コード生成における50倍のモデルの性能とほぼ一致していることを示す。
論文 参考訳(メタデータ) (2025-04-29T06:33:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。