論文の概要: Diffusion-State Policy Optimization for Masked Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2602.06462v1
- Date: Fri, 06 Feb 2026 07:47:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.286238
- Title: Diffusion-State Policy Optimization for Masked Diffusion Language Models
- Title(参考訳): マスケ拡散言語モデルの拡散状態最適化
- Authors: Daisuke Oba, Hiroki Furuta, Naoaki Okazaki,
- Abstract要約: マスク付きトークンを複数のデノナイジングステップで繰り返し充填して生成するマスケ拡散言語モデル。
中間充足決定を直接最適化するプラグイン・クレジット・アサインメント・レイヤであるDiSPOを提案する。
- 参考スコア(独自算出の注目度): 23.931675509910047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked diffusion language models generate by iteratively filling masked tokens over multiple denoising steps, so learning only from a terminal reward on the final completion yields coarse credit assignment over intermediate decisions. We propose DiSPO (Diffusion-State Policy Optimization), a plug-in credit-assignment layer that directly optimizes intermediate filling decisions. At selected intermediate masked states, DiSPO branches by resampling fillings for the currently masked positions from rollout-cached logits, scores the resulting completions, and updates only the newly filled tokens -- without additional multi-step diffusion rollouts. We formalize a fixed-state objective for branched completions and derive a policy-gradient estimator that can be combined with terminal-feedback policy optimization using the same rollouts. On LLaDA-8B-Instruct, DiSPO consistently improves over the terminal-feedback diffu-GRPO baseline on math and planning benchmarks under matched rollout compute and optimizer steps. Our code will be available at https://daioba.github.io/dispo .
- Abstract(参考訳): マスク付き拡散言語モデルは、複数の復調ステップにマスク付きトークンを反復的に充填することによって生成されるため、最終完了時の終点報酬のみから学習すると、中間決定よりも粗い信用代入が得られる。
中間充足決定を直接最適化するプラグイン・クレジット・アサインメント・レイヤであるDiSPO(Diffusion-State Policy Optimization)を提案する。
選択された中間マスキング状態において、DiSPOはロールアウトされたロジットから現在マスクされている位置のフィリングを再サンプリングし、結果の完了をスコアし、追加のマルチステップ拡散ロールアウトなしで新たに満たされたトークンのみを更新する。
分岐完了のための固定状態目標を定式化し、同じロールアウトを用いて端末フィードバックポリシー最適化と組み合わせることができる政策段階推定器を導出する。
LLaDA-8B-Instructでは、DiSPOは、一致したロールアウト計算とオプティマイザステップの下で、数学と計画ベンチマークに基づいて、端末フィードバックのdiffu-GRPOベースラインを一貫して改善する。
私たちのコードはhttps://daioba.github.io/dispoで公開されます。
関連論文リスト
- Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models [96.0074341403456]
LLM推論を改善するための実用的な方法として、推論時計算が再導入されている。
テスト時間スケーリング(TTS)アルゴリズムの多くは、自動回帰デコーディングに依存している。
そこで我々は,dLLM のための効率的な TTS フレームワーク Prism を提案する。
論文 参考訳(メタデータ) (2026-02-02T09:14:51Z) - Co-GRPO: Co-Optimized Group Relative Policy Optimization for Masked Diffusion Model [74.99242687133408]
Masked Diffusion Models (MDMs) は、視覚、言語、モーダル・ジェネレーションにまたがる有望な可能性を示している。
本稿では,MDM生成をMDP(Markov Decision Process)として再構成し,モデルと推論スケジュールを併用するCo-GRPOを提案する。
論文 参考訳(メタデータ) (2025-12-25T12:06:04Z) - Improving Discrete Diffusion Unmasking Policies Beyond Explicit Reference Policies [47.6755955972232]
我々は,KL規則化マルコフ決定プロセス (MDP) として明示的な基準ポリシを付与し,正規化目標を最適化した。
このフレームワークの下で最適化されたポリシーは、スケジュールよりもデータ分布とより密に一致したサンプルを生成することを証明している。
論文 参考訳(メタデータ) (2025-10-07T09:44:24Z) - GRAPE: Let GPRO Supervise Query Rewriting by Ranking for Retrieval [19.73916326078242]
CLIPモデルは,テキストと画像データを統合埋め込み空間に整列させることにより,大規模検索システムの基盤となっている。
コストのかかるリトレーニングを避けるため、既存のメソッドは主に大規模言語モデル(LLM)によるクエリ書き換え戦略を採用している。
GRAPEは,検索誘導型クエリ書き換えにランキング信号を組み込むプラグイン・アンド・プレイ拡張手法である。
論文 参考訳(メタデータ) (2025-09-27T15:36:59Z) - Plan for Speed: Dilated Scheduling for Masked Diffusion Language Models [13.575063025878208]
マスク付き拡散言語モデルは高速で非自己回帰的なテキスト生成を約束する。
モデルの信頼性に基づいてアンマスクするトークンを選択する既存のサンプルは、複数の位置を並列にアンマスクする際のインタラクションを無視する。
DUS(Dilated Unmasking Scheduler)は、列位置を非隣接拡張群に分割し、それらを並列に分割する推論のみのプランナーフリーな手法である。
論文 参考訳(メタデータ) (2025-06-23T18:49:23Z) - Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。
非滑らかな正規化はしばしば機械学習タスクに組み込まれる。
本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T08:32:25Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Preference-Based Planning in Stochastic Environments: From Partially-Ordered Temporal Goals to Most Preferred Policies [25.731912021122287]
マルコフ決定過程としてモデル化されたシステムは、時間的に拡張された一連の目標に対して部分的に順序づけられた選好を考慮に入れている。
部分的に順序づけられた選好を計画するために、時間的目標に対する選好をMDPの政策に対する選好にマッピングする順序理論を導入する。
順序付けの下で最も好まれるポリシーは、MDP内の有限経路上の非支配確率分布を誘導する。
論文 参考訳(メタデータ) (2024-03-27T02:46:09Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。