論文の概要: Boundary-Guided Policy Optimization for Memory-efficient RL of Diffusion Large Language Models
- arxiv url: http://arxiv.org/abs/2510.11683v1
- Date: Mon, 13 Oct 2025 17:47:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.490829
- Title: Boundary-Guided Policy Optimization for Memory-efficient RL of Diffusion Large Language Models
- Title(参考訳): 拡散大言語モデルのメモリ効率向上のための境界誘導型ポリシー最適化
- Authors: Nianyi Lin, Jiajie Zhang, Lei Hou, Juanzi Li,
- Abstract要約: 大きな言語モデル(dLLM)に強化学習を適用する上で重要な課題は、その可能性関数の抽出性である。
本稿では,ELBOに基づく目的の特別に構築された下界を最大化するメモリ効率のRLアルゴリズムを提案する。
実験によると、BGPOは数学の問題解決、コード生成、計画タスクにおいて、dLLMの以前のRLアルゴリズムよりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 53.339700196282905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A key challenge in applying reinforcement learning (RL) to diffusion large language models (dLLMs) lies in the intractability of their likelihood functions, which are essential for the RL objective, necessitating corresponding approximation in each training step. While existing methods approximate the log-likelihoods by their evidence lower bounds (ELBOs) via customized Monte Carlo (MC) sampling, the forward computational graphs of all MC samples need to be retained for the gradient computation of non-linear terms in the RL objective, resulting in significant memory overhead. This constraint restricts feasible sample sizes, leading to imprecise likelihood approximations and ultimately distorting the RL objective. To overcome this limitation, we propose \emph{Boundary-Guided Policy Optimization} (BGPO), a memory-efficient RL algorithm that maximizes a specially constructed lower bound of the ELBO-based objective. This lower bound is carefully designed to satisfy two key properties: (1) Linearity: it is formulated in a linear sum where each term depends only on a single MC sample, thereby enabling gradient accumulation across samples and ensuring constant memory usage; (2) Equivalence: Both the value and gradient of this lower bound are equal to those of the ELBO-based objective in on-policy training, making it also an effective approximation for the original RL objective. These properties allow BGPO to adopt a large MC sample size, resulting in more accurate likelihood approximations and improved RL objective estimation, which in turn leads to enhanced performance. Experiments show that BGPO significantly outperforms previous RL algorithms for dLLMs in math problem solving, code generation, and planning tasks.
- Abstract(参考訳): 拡張学習(RL)を拡散大言語モデル(dLLM)に適用する上での重要な課題は、その可能性関数の難易度にある。
既存の手法では、モンテカルロ (MC) のサンプリングにより、その証拠として低境界 (ELBO) を近似するが、RL の目的の非線形項の勾配計算には、全てのMCサンプルの前方計算グラフを保持する必要がある。
この制約は、実現可能なサンプルサイズを制限し、不正確な可能性近似を導き、最終的にRLの目的を歪ませる。
この制限を克服するために, ELBO に基づく目的の特別に構築された下限を最大化するメモリ効率の高い RL アルゴリズムである \emph{Boundary-Guided Policy Optimization} (BGPO) を提案する。
線形性(Linearity): 各項が単一のMCサンプルにのみ依存する線形和で定式化され、サンプル間の勾配の増大を可能とし、メモリ使用量を一定にすること。
これらの特性により、BGPOは大きなMCサンプルサイズを採用することができ、より正確な確率近似とRL目標推定が向上し、結果として性能が向上する。
実験によると、BGPOは数学の問題解決、コード生成、計画タスクにおいて、dLLMの以前のRLアルゴリズムよりも大幅に優れていた。
関連論文リスト
- Principled and Tractable RL for Reasoning with Diffusion Language Models [0.0]
拡散大言語モデル(dLLM)は、複数のトークンを並列に予測し、反復的アンマスキングによってテキストを生成するように訓練されている。
最近の研究は、DLLMを8Bスケールでの自己回帰LDMと同等に事前訓練することに成功しているが、現代のポストトレーニング技術の恩恵を受けていない。
本稿では,dLLMに特化して設計されたオンラインRLアルゴリズムであるAGRPO(Amortized Group Relative Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2025-10-05T03:53:16Z) - wd1: Weighted Policy Optimization for Reasoning in Diffusion Language Models [15.638885149395657]
dLLMs確率関数の抽出可能性には、各ポリシー最適化ステップにおける現在の、古い、参照ポリシーの確率を近似する必要がある。
我々は、目的を重み付けされた可能性として再構成する、新しいポリシー最適化アプローチである$mathttwd1$を導入する。
広く使われている推論ベンチマークの実験では、$mathttwd1$は教師付き微調整(SFT)や教師付きデータなしで、dLLMの既存のRLメソッドよりも優れていた。
論文 参考訳(メタデータ) (2025-07-07T21:27:25Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Towards Deployment-Efficient Reinforcement Learning: Lower Bound and
Optimality [141.89413461337324]
展開効率は、強化学習(RL)の多くの実世界の応用にとって重要な基準である
本稿では,「制約付き最適化」の観点から,デプロイ効率の高いRL(DE-RL)の理論的定式化を提案する。
論文 参考訳(メタデータ) (2022-02-14T01:31:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。