論文の概要: LightningRL: Breaking the Accuracy-Parallelism Trade-off of Block-wise dLLMs via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.13319v1
- Date: Wed, 04 Mar 2026 11:43:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.300104
- Title: LightningRL: Breaking the Accuracy-Parallelism Trade-off of Block-wise dLLMs via Reinforcement Learning
- Title(参考訳): LightningRL:強化学習によるブロックワイドdLLMの精度・並列性トレードオフを破る
- Authors: Yanzhe Hu, Yijie Jin, Pengfei Liu, Kai Yu, Zhijie Deng,
- Abstract要約: Diffusion Large Language Models (dLLMs) は、並列トークン生成のための有望なパラダイムとして登場した。
その可能性にもかかわらず、既存のdLLMは通常、厳格な精度パラレルのトレードオフに悩まされる。
我々は,事前学習したdLLMの速度品質フロンティアを直接最適化するポストトレーニングフレームワークLightningRLを提案する。
- 参考スコア(独自算出の注目度): 38.04066732299875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Large Language Models (dLLMs) have emerged as a promising paradigm for parallel token generation, with block-wise variants garnering significant research interest. Despite their potential, existing dLLMs typically suffer from a rigid accuracy-parallelism trade-off: increasing the number of tokens per forward (TPF) via aggressive parallel decoding often leads to performance degradation and increased generation instability. We identify that this limitation stems from the model's inability to navigate high-parallelism regimes where approximation errors and local corruptions accumulate, ultimately undermining the reliability of parallel generation. To address this, we propose LightningRL, a post-training framework designed to directly optimize the speed-quality Pareto frontier of pre-trained dLLMs. Instead of forcing uniform parallelization, our approach leverages reinforcement learning to identify and reinforce high-parallelism trajectories that maintain generation accuracy. Built upon the Group Relative Policy Optimization (GRPO) framework, LightningRL introduces several enhancements tailored for dLLMs: (1) stabilized training via per-reward decoupled normalization; (2) token-level negative log-likelihood (NLL) regularization on correct trajectories to anchor model performance; and (3) a dynamic sampling strategy with TPF-aware filtering to enhance training efficiency. Experimental results across mathematical and coding benchmarks demonstrate that LightningRL consistently advances the Pareto frontier, achieving competitive task accuracy while significantly increasing parallelism, reaching an average TPF of 7.32 (with a peak of 11.10 on the MBPP dataset). Our code is available at https://github.com/SJTU-DENG-Lab/LightningRL.
- Abstract(参考訳): Diffusion Large Language Models (dLLMs) は、並列トークン生成のための有望なパラダイムとして登場し、ブロックワイドの変種は重要な研究の関心を集めている。
その可能性にもかかわらず、既存のdLLMは通常、厳密な精度と並列性のトレードオフに悩まされる。
この制限は、近似誤差や局所的な腐敗が蓄積する高並列性体制をナビゲートできないモデルが原因であり、最終的には並列生成の信頼性を損なう。
そこで本研究では,事前学習したdLLMの速度品質のParetoフロンティアを直接最適化するポストトレーニングフレームワークLightningRLを提案する。
並列化を強制するのではなく、強化学習を活用して、生成精度を維持する高並列性軌道を同定し、強化する。
グループ相対政策最適化 (GRPO) フレームワークを基盤として,1) 逆分離正規化によるトレーニングの安定化,(2) 正軌道上でのトークンレベルの負対数類似度 (NLL) 正規化によるモデル性能のアンカー化,(3) TPFを意識したフィルタリングによる動的サンプリング戦略の導入など,dLLM 用に調整されたいくつかの拡張が導入されている。
数学的およびコーディングのベンチマークによる実験の結果、LightningRLはパレートフロンティアを一貫して前進させ、競合タスクの精度を達成し、並列性を大幅に向上させ、平均TPFは7.32に達した(MBPPデータセットでは最高11.10)。
私たちのコードはhttps://github.com/SJTU-DENG-Lab/LightningRL.comで公開されています。
関連論文リスト
- Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - DiFFPO: Training Diffusion LLMs to Reason Fast and Furious via Reinforcement Learning [37.20873499361773]
マスク付き拡散大言語モデル (dLLM) を学習し, より優れた推論を行うための統一フレームワークを提案する。
我々はまず,既存の基本方針を,真のdLLM政策の近似としてはるかに難易度の高い,政治外RLによるサロゲート政策の訓練により統一する。
RLでは、各プロンプトに対して推論閾値を適応的に割り当てることによって、dLLMの自然なマルチトークン予測能力をインセンティブ化する。
論文 参考訳(メタデータ) (2025-10-02T16:57:24Z) - Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle [65.14124923451077]
強化学習(Reinforcement Learning, RL)は、マルチモーダル大言語モデル(MLLM)の推論能力を高めるための効果的なポストトレーニングパラダイムとして登場した。
しかしながら、現在のRLパイプラインは、アドバンテージ・コラプシング(Advantage Collapsing)とロールアウト・サイレンシング(Rollout Silencing)という2つの未解決の問題によって、トレーニングの非効率に悩まされることが多い。
軌道サンプリングとバッチ合成を動的に再構成することにより、RLの微調整効率を向上する、シンプルだが原則化されたフレームワークであるShuffle-R1を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:53:47Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。