論文の概要: SPG: Sandwiched Policy Gradient for Masked Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2510.09541v1
- Date: Fri, 10 Oct 2025 16:52:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:49.404111
- Title: SPG: Sandwiched Policy Gradient for Masked Diffusion Language Models
- Title(参考訳): SPG:masked Diffusion Language Modelのためのサンドウィッチされたポリシーグラディエント
- Authors: Chengyu Wang, Paria Rashidinejad, DiJia Su, Song Jiang, Sid Wang, Siyan Zhao, Cai Zhou, Shannon Zejiang Shen, Feiyu Chen, Tommi Jaakkola, Yuandong Tian, Bo Liu,
- Abstract要約: サンドウィッチ政策グラディエント(SPG)
実験の結果,SPGはELBOやワンステップ推定に基づいてベースラインを著しく上回ることがわかった。
具体的には、GSM8Kの3.6%、MATH500の2.6%、カウントダウンの18.4%、スドクの27.0%で、dLLMの最先端RL法よりも精度が向上する。
- 参考スコア(独自算出の注目度): 45.044399767079874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion large language models (dLLMs) are emerging as an efficient alternative to autoregressive models due to their ability to decode multiple tokens in parallel. However, aligning dLLMs with human preferences or task-specific rewards via reinforcement learning (RL) is challenging because their intractable log-likelihood precludes the direct application of standard policy gradient methods. While prior work uses surrogates like the evidence lower bound (ELBO), these one-sided approximations can introduce significant policy gradient bias. To address this, we propose the Sandwiched Policy Gradient (SPG) that leverages both an upper and a lower bound of the true log-likelihood. Experiments show that SPG significantly outperforms baselines based on ELBO or one-step estimation. Specifically, SPG improves the accuracy over state-of-the-art RL methods for dLLMs by 3.6% in GSM8K, 2.6% in MATH500, 18.4% in Countdown and 27.0% in Sudoku.
- Abstract(参考訳): 拡散大言語モデル(dLLMs)は、複数のトークンを並列にデコードする能力のため、自己回帰モデルの効率的な代替として出現している。
しかし,強化学習(RL)による人為的嗜好やタスク固有の報酬とdLLMを整合させることは,その難易度の高いログライクな手法が標準方針勾配法の直接的な適用を妨げているため,困難である。
以前の研究では、エビデンスローバウンド(ELBO)のようなサロゲートを使用していたが、一方的な近似は、重要なポリシー勾配バイアスをもたらす可能性がある。
この問題に対処するために,真のログライクな状態の上位境界と下位境界の両方を利用するSandwiched Policy Gradient (SPG)を提案する。
実験の結果,SPGはELBOやワンステップ推定に基づいてベースラインを著しく上回ることがわかった。
具体的には、GSM8Kの3.6%、MATH500の2.6%、カウントダウンの18.4%、スドクの27.0%で、dLLMの最先端RL法よりも精度が向上する。
関連論文リスト
- Principled and Tractable RL for Reasoning with Diffusion Language Models [0.0]
拡散大言語モデル(dLLM)は、複数のトークンを並列に予測し、反復的アンマスキングによってテキストを生成するように訓練されている。
最近の研究は、DLLMを8Bスケールでの自己回帰LDMと同等に事前訓練することに成功しているが、現代のポストトレーニング技術の恩恵を受けていない。
本稿では,dLLMに特化して設計されたオンラインRLアルゴリズムであるAGRPO(Amortized Group Relative Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2025-10-05T03:53:16Z) - DiffusionNFT: Online Diffusion Reinforcement with Forward Process [99.94852379720153]
Diffusion Negative-aware FineTuning (DiffusionNFT) は、フローマッチングを通じて前方プロセス上で直接拡散モデルを最適化する新しいオンラインRLパラダイムである。
DiffusionNFTは、CFGフリーのFlowGRPOよりも25倍効率が高い。
論文 参考訳(メタデータ) (2025-09-19T16:09:33Z) - wd1: Weighted Policy Optimization for Reasoning in Diffusion Language Models [15.638885149395657]
dLLMs確率関数の抽出可能性には、各ポリシー最適化ステップにおける現在の、古い、参照ポリシーの確率を近似する必要がある。
我々は、目的を重み付けされた可能性として再構成する、新しいポリシー最適化アプローチである$mathttwd1$を導入する。
広く使われている推論ベンチマークの実験では、$mathttwd1$は教師付き微調整(SFT)や教師付きデータなしで、dLLMの既存のRLメソッドよりも優れていた。
論文 参考訳(メタデータ) (2025-07-07T21:27:25Z) - Pre-Trained Policy Discriminators are General Reward Models [81.3974586561645]
政策差別学習(POLAR)という,スケーラブルな事前学習手法を提案する。
POLARは報酬モデル(RM)を訓練し、同一のポリシーを識別し、異なるポリシーを識別する。
実証実験の結果、POLARは従来の非事前学習法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-07-07T16:56:31Z) - Token-Efficient RL for LLM Reasoning [0.02488650627593658]
本稿では,大規模言語モデル (LLM) において,厳密なメモリと計算限界下での推論に適した強化学習戦略を提案する。
ベースラインサブトラクションを用いた早期ポリシー勾配法に基づいて,出力トークンの小さな情報サブセット上で動作する批判のない手法を設計する。
提案手法は,SVAMPベンチマークの精度を46%から70%以上に向上し,マルチ桁乗算において高い性能を示した。
論文 参考訳(メタデータ) (2025-04-29T14:58:43Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。