論文の概要: GDSD: Reinforcement Learning as Guided Denoiser Self-Distillation for Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2605.29398v1
- Date: Thu, 28 May 2026 05:47:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.768247
- Title: GDSD: Reinforcement Learning as Guided Denoiser Self-Distillation for Diffusion Language Models
- Title(参考訳): GDSD:拡散言語モデルのためのガイド付きデノイザ自己蒸留としての強化学習
- Authors: Xiaohang Tang, Keyue Jiang, Che Liu, Qifang Zhao, Xiaoxiao Xu, Sangwoong Yoon, Ilija Bogunovic,
- Abstract要約: そこで我々は,dLLMの脱ノイズ剤をアドバンテージ誘導型自己教師から蒸留するために,誘導脱ノイズ器自己蒸留法(GDSD)を提案する。
GDSDは、正規化のない目的を通じて、dLLMのデノイザーロジットを教師のものと一致させることで、RLは可能性のない自己蒸留に還元される。
- 参考スコア(独自算出の注目度): 26.589027931827356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) can be used to improve the policy (denoiser) of diffusion large language models (dLLMs), while being hindered by the intractability of the policy likelihood. A dominant and efficient family of methods replaces the likelihood in standard RL with its evidence lower bound (ELBO), estimated from randomly masked sequences. Despite being well aligned with pre-training, these approaches introduce bias through training--inference mismatch by using the ELBO as a likelihood surrogate, which can degrade performance. In this work, we propose Guided Denoiser Self-Distillation (GDSD) to directly distill the denoiser of dLLMs from an advantage-guided self-teacher, derived from the closed-form optimum of reverse-KL regularized RL. GDSD matches the dLLM's denoiser logits to the teacher's via a normalization-free objective, which reduces RL to likelihood-free self-distillation and thus bypasses the TIM biases. Recent ELBO-based methods emerge as instances of applying different distillation divergences, but with diagnosable pathologies that GDSD avoids. On planning, math, and coding benchmarks with LLaDA-8B and Dream-7B, GDSD consistently outperforms prior state-of-the-art ELBO-based methods with a more stable training reward dynamics, achieving test-accuracy improvements of up to $+19.6\%$. These results suggest that direct denoiser self-distillation, without relying on an ELBO likelihood surrogate, can provide a more stable and effective RL procedure for dLLMs. Code is available at https://github.com/GaryBall/GDSD.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は拡散大言語モデル(dLLM)のポリシー(デノワザ)を改善するために用いられる。
支配的かつ効率的な手法の族は、ランダムにマスキングされたシーケンスから推定される標準RLの確率を、そのエビデンスローバウンド(ELBO)に置き換える。
これらの手法は、事前トレーニングによく適合しているにもかかわらず、訓練のミスマッチを通じてバイアスを生じさせ、ELBOを性能を低下させる可能性がある。
本研究では, 逆KL正則化RLの閉形式最適化から導かれる, アドバンテージ誘導型自己指導器から直接dLLMを抽出するガイドデノイザ自己蒸留法を提案する。
GDSDは、正規化のない目的を通じて、dLLMのデノイザーロジットを教師のものと一致させ、RLを可能性のない自己蒸留に還元し、したがってTIMバイアスをバイパスする。
近年のELBO法は,GDSDが避ける診断可能な病態とともに,異なる蒸留法を応用する事例として出現している。
LLaDA-8BとDream-7Bによる計画、数学、およびコーディングのベンチマークにおいて、GDSDはより安定したトレーニング報酬のダイナミクスを持つ最先端のELBOベースの手法を一貫して上回り、テスト精度を最大$+19.6\%$に改善した。
これらの結果から, ELBOサロゲートを使わずに直接消毒剤の自己蒸留を行うことにより, dLLMsのより安定かつ効果的なRL法が得られることが示唆された。
コードはhttps://github.com/GaryBall/GDSD.comで入手できる。
関連論文リスト
- MixSD: Mixed Contextual Self-Distillation for Knowledge Injection [29.7616760417696]
Supervised Fine-tuning (SFT) は言語モデルに新しい知識を注入するために広く使われている。
このことは、人間や外部システムからの微調整対象が、モデルの自動回帰分布から逸脱するためである、と我々は主張する。
分布整合型知識注入のための簡易な外部教師なし手法であるMixSDを提案する。
論文 参考訳(メタデータ) (2026-05-16T07:57:09Z) - Self-Distilled Trajectory-Aware Boltzmann Modeling: Bridging the Training-Inference Discrepancy in Diffusion Language Models [65.89572755202245]
拡散言語モデル(DLM)は、より強力なグローバル認識と高い並列生成を提供する。
標準負のエビデンス下界(NELBO)に基づく教師付き微調整後のDLMは非効率である。
そこで本研究では,学習を推論の容易かつハードな構造に整合させる,自己蒸留軌道に基づくポストトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-12T09:39:06Z) - V-GRPO: Online Reinforcement Learning for Denoising Generative Models Is Easier than You Think [90.69263509098948]
本稿では,ELBOをベースとしたサロゲートとグループ相対ポリシー最適化アルゴリズムを統合した変分GRPOを提案する。
V-GRPOはテキストと画像の合成において最先端のパフォーマンスを実現し、MixGRPOよりも2倍のスピードアップ、DiffusionNFTより3倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2026-04-25T17:03:21Z) - Self-Distilled RLVR [57.37526213765131]
特権教師からのみ派生した学習信号が,情報漏洩と不安定な長期学習をもたらすことを示す。
textbfSelf-textbfDistillationを用いたtextbfRLSD(textbfRLVR)を提案する。
これにより、RSSDはRLVRとOPSDの両方の強度を同時に利用でき、高い収束天井と優れたトレーニング安定性を実現することができる。
論文 参考訳(メタデータ) (2026-04-03T15:50:07Z) - Aligning Diffusion Language Models via Unpaired Preference Optimization [3.5258364450686623]
拡散言語モデル(dLLMs)は、自己回帰(AR)ジェネレータに代わる新たな選択肢である。
ELBO-KTOは,拡散対数類似度に対するELBOサロゲートと,予測理論的,未選択の選好目的を組み合わせて導入する。
論文 参考訳(メタデータ) (2025-10-26T03:02:39Z) - DiFFPO: Training Diffusion LLMs to Reason Fast and Furious via Reinforcement Learning [37.20873499361773]
マスク付き拡散大言語モデル (dLLM) を学習し, より優れた推論を行うための統一フレームワークを提案する。
我々はまず,既存の基本方針を,真のdLLM政策の近似としてはるかに難易度の高い,政治外RLによるサロゲート政策の訓練により統一する。
RLでは、各プロンプトに対して推論閾値を適応的に割り当てることによって、dLLMの自然なマルチトークン予測能力をインセンティブ化する。
論文 参考訳(メタデータ) (2025-10-02T16:57:24Z) - d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning [31.531278643184656]
最近の大規模言語モデル(LLM)は、オンライン強化学習(RL)の恩恵を受ける強力な推論能力を示している。
教師付きファインタニング(SFT)とRLの組み合わせにより,事前学習したマスク付きdLLMを推論モデルに適応するフレームワークであるd1を提案する。
d1は最高の性能を示し、最先端のdLLMの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-16T16:08:45Z) - Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。