論文の概要: Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective
- arxiv url: http://arxiv.org/abs/2512.03759v1
- Date: Wed, 03 Dec 2025 13:05:32 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:13:48.484782
- Title: Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective
- Title(参考訳): 逐次レベルから見た拡散LDMの原理的RL
- Authors: Jingyang Ou, Jiaqi Han, Minkai Xu, Shaoxuan Xu, Jianwen Xie, Stefano Ermon, Yi Wu, Chongxuan Li,
- Abstract要約: 強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
- 参考スコア(独自算出の注目度): 85.06838178922791
- License:
- Abstract: Reinforcement Learning (RL) has proven highly effective for autoregressive language models, but adapting these methods to diffusion large language models (dLLMs) presents fundamental challenges. The core difficulty lies in likelihood approximation: while autoregressive models naturally provide token-level conditional probabilities essential for token-level RL objectives (e.g., GRPO), dLLMs generate sequences through iterative non-autoregressive denoising steps that lack this factorization. To address this fundamental mismatch, we propose ELBO-based Sequence-level Policy Optimization (ESPO), a principled RL framework that treats entire sequence generation as a single action and uses the ELBO as a tractable sequence-level likelihood proxy. Our method incorporates per-token normalization of importance ratios and robust KL-divergence estimation to ensure stable large-scale training. Extensive experiments on mathematical reasoning, coding, and planning tasks demonstrate that ESPO significantly outperforms token-level baselines, achieving dramatic improvements of 20-40 points on the Countdown task, while maintaining consistent gains on math and coding benchmarks. Our approach establishes sequence-level optimization as a principled and empirically effective paradigm for RL in dLLMs. Our code is available at https://github.com/ML-GSAI/ESPO.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は自己回帰型言語モデルに非常に効果的であることが証明されているが、これらの手法を拡散型大言語モデル(dLLM)に適用することは根本的な課題である。
自己回帰モデルは、トークンレベルのRL目的(例えばGRPO)に不可欠なトークンレベルの条件付き確率を自然に提供するが、dLLMは、この分解を欠いた反復的非自己回帰的分解ステップを通じてシーケンスを生成する。
この基本的なミスマッチに対処するために,ELBO ベースのシーケンスレベルポリシー最適化 (ESPO) を提案する。
提案手法は,重要度毎の正規化とKL偏差推定を併用し,安定した大規模トレーニングを実現する。
数学的推論、コーディング、計画タスクに関する大規模な実験は、ESPOがトークンレベルのベースラインを著しく上回り、Countdownタスクで20~40ポイントの劇的な改善を達成し、数学やコーディングベンチマークにおける一貫した利得を維持していることを示している。
提案手法は,dLLMにおけるRLの原理的および経験的有効パラダイムとしてシーケンスレベルの最適化を確立する。
私たちのコードはhttps://github.com/ML-GSAI/ESPO.comで公開されています。
関連論文リスト
- Boundary-Guided Policy Optimization for Memory-efficient RL of Diffusion Large Language Models [53.339700196282905]
大きな言語モデル(dLLM)に強化学習を適用する上で重要な課題は、その可能性関数の抽出性である。
本稿では,ELBOに基づく目的の特別に構築された下界を最大化するメモリ効率のRLアルゴリズムを提案する。
実験によると、BGPOは数学の問題解決、コード生成、計画タスクにおいて、dLLMの以前のRLアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-10-13T17:47:50Z) - Token-Efficient RL for LLM Reasoning [0.02488650627593658]
本稿では,大規模言語モデル (LLM) において,厳密なメモリと計算限界下での推論に適した強化学習戦略を提案する。
ベースラインサブトラクションを用いた早期ポリシー勾配法に基づいて,出力トークンの小さな情報サブセット上で動作する批判のない手法を設計する。
提案手法は,SVAMPベンチマークの精度を46%から70%以上に向上し,マルチ桁乗算において高い性能を示した。
論文 参考訳(メタデータ) (2025-04-29T14:58:43Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。