論文の概要: RFG: Test-Time Scaling for Diffusion Large Language Model Reasoning with Reward-Free Guidance
- arxiv url: http://arxiv.org/abs/2509.25604v1
- Date: Mon, 29 Sep 2025 23:59:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.36917
- Title: RFG: Test-Time Scaling for Diffusion Large Language Model Reasoning with Reward-Free Guidance
- Title(参考訳): RFG:Reward-free Guidanceを用いた拡散大言語モデル推論のためのテスト時間スケーリング
- Authors: Tianlang Chen, Minkai Xu, Jure Leskovec, Stefano Ermon,
- Abstract要約: プロセス報酬を明示せずにdLLMの推論軌道を導出するためのRFGを提案する。
RFGは、すべてのタスクとモデルタイプに一貫して大きな改善をもたらし、最大9.2%の精度向上を実現している。
- 参考スコア(独自算出の注目度): 101.30279597148973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion large language models (dLLMs) have shown great potential in large-scale language modeling, and there is an increasing interest in further improving the capacity to solve complex problems by guiding the reasoning process step by step. Common practice for autoregressive language models typically learns a process reward model with dense annotation for each intermediate step. However, this is challenging for dLLMs where the generation is in an any-order fashion and intermediate states are partially masked sentences. To this end, in this paper, we propose reward-free guidance (RFG), a principled method for guiding the reasoning trajectory of dLLMs without explicit process reward. The key idea of RFG is to parameterize the process reward by log-likelihood ratios of the enhanced and reference dLLMs, where the enhanced model can be easily obtained by any off-the-shelf dLLM that has been post-trained with reinforcement learning (RL) or supervised fine-tuning (SFT). We provide theoretical justification that RFG induces the reward-guided sampling distribution with no additional reward. We conduct comprehensive experiments on four challenging mathematical reasoning and code generation benchmarks using a diverse suite of dLLMs enhanced with various post-training methods. RFG consistently yields significant improvements across all tasks and model types, achieving accuracy gains of up to 9.2%. These findings establish RFG as a general training-free framework that scales test-time reasoning without reliance on external reward models.
- Abstract(参考訳): 拡散大言語モデル (dLLM) は, 大規模言語モデリングにおいて大きな可能性を示し, 推論過程を段階的に導くことによって, 複雑な問題を解決する能力の向上への関心が高まっている。
自己回帰言語モデルの一般的な実践は、通常、中間ステップごとに密集したアノテーションを持つプロセス報酬モデルを学ぶ。
しかし、生成が任意の順序で、中間状態が部分的にマスクされた文であるdLLMでは、これは難しい。
そこで本稿では,dLLMの推論軌道を明示的なプロセス報酬なしで導くための原則的手法であるRFGを提案する。
RFGの鍵となる考え方は、強化および参照されたdLLMの対数的比でプロセス報酬をパラメータ化することであり、強化学習(RL)や教師付き微調整(SFT)で後に訓練された任意の既成のdLLMにより、拡張されたモデルを容易に得ることができる。
我々は、RFGが追加の報酬を伴わずに、報酬誘導サンプリング分布を誘導する理論的正当性を示す。
我々は、様々なポストトレーニング手法で強化された多種多様なdLLMを用いて、4つの挑戦的な数学的推論とコード生成ベンチマークに関する包括的な実験を行う。
RFGは、すべてのタスクとモデルタイプに一貫して大きな改善をもたらし、最大9.2%の精度向上を実現している。
これらの結果から,RFGは外部報酬モデルに依存することなく,テストタイム推論をスケールする一般トレーニングフリーフレームワークとして確立された。
関連論文リスト
- Learning to Reason with Mixture of Tokens [0.0]
検証可能な報酬(RLVR)による強化学習は、大規模言語モデル(LLM)推論能力を改善するための主要なアプローチとなっている。
本稿では,既存のMoT-Gアプローチを一般化するフレームワークを提案する。
Qwen2.5-1.5Bモデルと比較すると,MoT-G法は10タスク中7タスクで5-35パーセント向上した。
論文 参考訳(メタデータ) (2025-09-25T19:44:24Z) - Rethinking Reasoning Quality in Large Language Models through Enhanced Chain-of-Thought via RL [19.659532349434418]
強化学習(Reinforcement Learning, RL)は、近年、大規模言語モデルの推論能力を強化する主要なパラダイムとなっている。
しかし、数学やプログラミングのベンチマークで一般的に使われるルールベースの報酬関数は、応答形式と正しさのみを評価する。
本稿では,報酬と有利な信号の両方を再生するプラグイン・アンド・プレイのRL報酬フレームワークであるDynamic Reasoning Efficiency Reward (DRER)を提案する。
論文 参考訳(メタデータ) (2025-09-07T11:52:18Z) - Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [54.70676039314542]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。
異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。
我々は、最先端のPTQ手法を実装し、複数のタスクタイプとモデル変種を包括的に評価する。
論文 参考訳(メタデータ) (2025-08-20T17:59:51Z) - DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。
本研究は,それらの認知過程と強化学習手法について考察する。
我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文 参考訳(メタデータ) (2025-06-25T17:35:47Z) - A Simple "Motivation" Can Enhance Reinforcement Finetuning of Large Reasoning Models [103.88578274567784]
MeRF(Motivation-enhanced Reinforcement Finetuning)は、大規模共振モデルの強化微調整を強化する直感的かつ効果的な方法である。
MeRFは報酬仕様を直接プロンプトに注入し、最適化目標を認識するためのコンテキスト内モチベーションとして機能する。
MeRFはRLVRベースラインよりもパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2025-06-23T10:37:57Z) - Rewarding the Unlikely: Lifting GRPO Beyond Distribution Sharpening [36.81125165911328]
強化学習は、言語モデルの推論能力を改善する主要な要因として現れています。
本稿では,現在の強化学習アルゴリズムが,すでに解いている問題に関するベースモデルの分布を単に研ぎ澄ましているだけかどうかを考察する。
差分報酬はランクバイアスを緩和し、合成定理と実定理の両方の証明設定において、多種多様な$N$でpass@N$を改善することを示す。
論文 参考訳(メタデータ) (2025-06-03T01:15:15Z) - d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning [31.531278643184656]
最近の大規模言語モデル(LLM)は、オンライン強化学習(RL)の恩恵を受ける強力な推論能力を示している。
教師付きファインタニング(SFT)とRLの組み合わせにより,事前学習したマスク付きdLLMを推論モデルに適応するフレームワークであるd1を提案する。
d1は最高の性能を示し、最先端のdLLMの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-16T16:08:45Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。