Fugu-MT 論文翻訳(概要): LightningRL: Breaking the Accuracy-Parallelism Trade-off of Block-wise dLLMs via Reinforcement Learning

論文の概要: LightningRL: Breaking the Accuracy-Parallelism Trade-off of Block-wise dLLMs via Reinforcement Learning

arxiv url: http://arxiv.org/abs/2603.13319v1
Date: Wed, 04 Mar 2026 11:43:19 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:42.300104
Title: LightningRL: Breaking the Accuracy-Parallelism Trade-off of Block-wise dLLMs via Reinforcement Learning
Title（参考訳）: LightningRL:強化学習によるブロックワイドdLLMの精度・並列性トレードオフを破る
Authors: Yanzhe Hu, Yijie Jin, Pengfei Liu, Kai Yu, Zhijie Deng,
Abstract要約: Diffusion Large Language Models (dLLMs) は、並列トークン生成のための有望なパラダイムとして登場した。その可能性にもかかわらず、既存のdLLMは通常、厳格な精度パラレルのトレードオフに悩まされる。我々は,事前学習したdLLMの速度品質フロンティアを直接最適化するポストトレーニングフレームワークLightningRLを提案する。
参考スコア（独自算出の注目度）: 38.04066732299875
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion Large Language Models (dLLMs) have emerged as a promising paradigm for parallel token generation, with block-wise variants garnering significant research interest. Despite their potential, existing dLLMs typically suffer from a rigid accuracy-parallelism trade-off: increasing the number of tokens per forward (TPF) via aggressive parallel decoding often leads to performance degradation and increased generation instability. We identify that this limitation stems from the model's inability to navigate high-parallelism regimes where approximation errors and local corruptions accumulate, ultimately undermining the reliability of parallel generation. To address this, we propose LightningRL, a post-training framework designed to directly optimize the speed-quality Pareto frontier of pre-trained dLLMs. Instead of forcing uniform parallelization, our approach leverages reinforcement learning to identify and reinforce high-parallelism trajectories that maintain generation accuracy. Built upon the Group Relative Policy Optimization (GRPO) framework, LightningRL introduces several enhancements tailored for dLLMs: (1) stabilized training via per-reward decoupled normalization; (2) token-level negative log-likelihood (NLL) regularization on correct trajectories to anchor model performance; and (3) a dynamic sampling strategy with TPF-aware filtering to enhance training efficiency. Experimental results across mathematical and coding benchmarks demonstrate that LightningRL consistently advances the Pareto frontier, achieving competitive task accuracy while significantly increasing parallelism, reaching an average TPF of 7.32 (with a peak of 11.10 on the MBPP dataset). Our code is available at https://github.com/SJTU-DENG-Lab/LightningRL.
Abstract（参考訳）: Diffusion Large Language Models (dLLMs) は、並列トークン生成のための有望なパラダイムとして登場し、ブロックワイドの変種は重要な研究の関心を集めている。その可能性にもかかわらず、既存のdLLMは通常、厳密な精度と並列性のトレードオフに悩まされる。この制限は、近似誤差や局所的な腐敗が蓄積する高並列性体制をナビゲートできないモデルが原因であり、最終的には並列生成の信頼性を損なう。そこで本研究では,事前学習したdLLMの速度品質のParetoフロンティアを直接最適化するポストトレーニングフレームワークLightningRLを提案する。並列化を強制するのではなく、強化学習を活用して、生成精度を維持する高並列性軌道を同定し、強化する。グループ相対政策最適化 (GRPO) フレームワークを基盤として,1) 逆分離正規化によるトレーニングの安定化,(2) 正軌道上でのトークンレベルの負対数類似度 (NLL) 正規化によるモデル性能のアンカー化,(3) TPFを意識したフィルタリングによる動的サンプリング戦略の導入など,dLLM 用に調整されたいくつかの拡張が導入されている。数学的およびコーディングのベンチマークによる実験の結果、LightningRLはパレートフロンティアを一貫して前進させ、競合タスクの精度を達成し、並列性を大幅に向上させ、平均TPFは7.32に達した(MBPPデータセットでは最高11.10)。私たちのコードはhttps://github.com/SJTU-DENG-Lab/LightningRL.comで公開されています。

論文の概要: LightningRL: Breaking the Accuracy-Parallelism Trade-off of Block-wise dLLMs via Reinforcement Learning

関連論文リスト