論文の概要: DACA-GRPO: Denoising-Aware Credit Assignment for Reinforcement Learning in Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2605.16342v1
- Date: Fri, 08 May 2026 01:02:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.897921
- Title: DACA-GRPO: Denoising-Aware Credit Assignment for Reinforcement Learning in Diffusion Language Models
- Title(参考訳): DACA-GRPO:拡散言語モデルにおける強化学習のための認知的クレジットアサインメント
- Authors: Amin Karimi Monsefi, Dominic Culver, Nikhil Bhendawade, Lokesh Boominathan, Manuel R. Ciosici, Yizhe Zhang, Irina Belousova,
- Abstract要約: GRPO型トレーナーのプラグ・アンド・プレイ・エンハンスメントであるGRPO(DACA-GRPO)に対するDenoising-Aware Credit Assignmentを提案する。
DACA-GRPOは、数学的推論、コード生成、制約満足度、制約付き生成を含む7つのベンチマークで一貫した改善を実現している。
- 参考スコア(独自算出の注目度): 9.199240801552302
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion large language models are a compelling alternative to autoregressive models, yet existing RL methods for diffusion treat all denoising steps as equally important and rely on biased, high-variance likelihood estimates. We identify two fundamental weaknesses: the absence of temporal credit assignment across the denoising trajectory, and the systematic bias of mean-field likelihood estimates used for policy optimization. To address these, we propose Denoising-Aware Credit Assignment for GRPO (DACA-GRPO), a lightweight, plug-and-play enhancement for any GRPO-style trainer. DACA-GRPO introduces two complementary mechanisms: Denoising Progress Scores, which extract per-token importance weights from intermediate predictions at no additional forward cost, and Stratified Masking Likelihood, which partitions token positions into strata so that each token is predicted with most of the sequence as context, reducing the mean-field bias. Applied on top of three GRPO base methods, DACA-GRPO achieves consistent improvements across seven benchmarks spanning mathematical reasoning, code generation, constraint satisfaction, and constrained generation, with gains of up to 5.6pp on math reasoning, 7.4pp on code generation, 36.3pp on constraint satisfaction, and 5.9pp on JSON schema adherence.
- Abstract(参考訳): 拡散大言語モデルは自己回帰モデルに代わる魅力的な代替手段であるが、拡散のための既存のRL法は全てのデノナイジングステップを等しく重要であり、偏りのある高分散推定に頼っている。
基本的欠点として,認知軌道を横断する時間的信用割当の欠如と,政策最適化に使用される平均場推定推定の体系的バイアスがあげられる。
そこで本研究では,GRPO型トレーナーの軽量・プラグ・アンド・プレイ・エンハンスメントであるDNOING-Aware Credit Assignment for GRPO (DACA-GRPO)を提案する。
DACA-GRPOは2つの相補的なメカニズムを導入している。プログレッシブスコア(Denoising Progress Scores)は、中間予測から、追加のフォワードコストなしで重要度を抽出する。
3つのGRPOベースメソッドに適用されるDACA-GRPOは、数学的推論、コード生成、制約満足度、制約のある生成にまたがる7つのベンチマークで一貫した改善を実現している。
関連論文リスト
- Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - Not All Tokens See Equally: Perception-Grounded Policy Optimization for Large Vision-Language Models [38.47027398567909]
Perception-Grounded Policy Optimization (PGPO)は、トークンレベルでのメリットを動的に再評価する、新しいきめ細かなクレジット割り当てフレームワークである。
PGPOは,言語的先行音からの勾配雑音を抑えつつ,視覚的に依存するトークンの学習信号を積極的に増幅することを示す。
理論的および実証的な分析は、PGPOが勾配の分散を効果的に減少させ、訓練の崩壊を防ぎ、頑健で知覚的なマルチモーダル推論のための強力な正則化剤として機能することを確認する。
論文 参考訳(メタデータ) (2026-04-02T09:53:20Z) - dTRPO: Trajectory Reduction in Policy Optimization of Diffusion Large Language Models [71.26391195427878]
拡散大言語モデル(dLLM)は、言語生成の新しいパラダイムを導入する。
本研究は,軌道確率計算のコストを削減し,dLLMのポリシー最適化を改善することを目的とする。
我々は、7B dLLMのdTRPOを命令追従と推論のベンチマークで評価した。
論文 参考訳(メタデータ) (2026-03-19T11:55:52Z) - Reinforcement Learning for Diffusion LLMs with Entropy-Guided Step Selection and Stepwise Advantages [7.728607011076579]
強化学習は、自己回帰言語モデル(AR)の訓練後において有効であるが、これらの手法を拡散言語モデル(DLM)に拡張することは、難易度が高いため困難である。
拡散に基づくシーケンス生成を有限水平マルコフ決定過程としてデノベーション軌道上で定式化し、正確な偏りのない政策勾配を導出する。
コーディングと論理的推論ベンチマークの実験は、数学的推論に強い競争性能を持つ最先端の結果を示している。
論文 参考訳(メタデータ) (2026-03-13T01:38:44Z) - Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - Alignment as Distribution Learning: Your Preference Model is Explicitly a Language Model [12.063078727764045]
人間のフィードバックからの強化学習によるアライメントは理論的正当性に欠け、決定論的解のインセンティブを与える。
本稿では, 優先最大推定, 優先蒸留, 逆KL最小化の3つの基本学習目標を提案する。
我々は、我々の分布学習フレームワーク、特に嗜好蒸留が、RLHFとDPOのパフォーマンスを一貫して上回るか、あるいは一致しているかを実証的に示す。
論文 参考訳(メタデータ) (2025-06-02T10:36:31Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [50.91849555841057]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
DisCO は GRPO と DAPO などの改良型を著しく上回り、GRPO の7%、DAPO の6% を平均的に上回っている。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。