論文の概要: MRO: Enhancing Reasoning in Diffusion Language Models via Multi-Reward Optimization
- arxiv url: http://arxiv.org/abs/2510.21473v1
- Date: Fri, 24 Oct 2025 13:57:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.496584
- Title: MRO: Enhancing Reasoning in Diffusion Language Models via Multi-Reward Optimization
- Title(参考訳): MRO:マルチリワード最適化による拡散言語モデルの推論強化
- Authors: Chenglong Wang, Yang Gan, Hang Zhou, Chi Hu, Yongyu Mu, Kai Song, Murun Yang, Bei Li, Chunliang Zhang, Tongran Liu, Jingbo Zhu, Zhengtao Yu, Tong Xiao,
- Abstract要約: 拡散言語モデル (DLMs) は従来の自己回帰型大規模言語モデル (LLMs) に代わる有望な選択肢を提供する。
DLMは、特にデノナイジングステップの数が減少するにつれて、LLMよりも遅れている。
本稿では,マルチリワード最適化 (MRO) 手法を提案する。
- 参考スコア(独自算出の注目度): 66.82303841930752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in diffusion language models (DLMs) have presented a promising alternative to traditional autoregressive large language models (LLMs). However, DLMs still lag behind LLMs in reasoning performance, especially as the number of denoising steps decreases. Our analysis reveals that this shortcoming arises primarily from the independent generation of masked tokens across denoising steps, which fails to capture the token correlation. In this paper, we define two types of token correlation: intra-sequence correlation and inter-sequence correlation, and demonstrate that enhancing these correlations improves reasoning performance. To this end, we propose a Multi-Reward Optimization (MRO) approach, which encourages DLMs to consider the token correlation during the denoising process. More specifically, our MRO approach leverages test-time scaling, reject sampling, and reinforcement learning to directly optimize the token correlation with multiple elaborate rewards. Additionally, we introduce group step and importance sampling strategies to mitigate reward variance and enhance sampling efficiency. Through extensive experiments, we demonstrate that MRO not only improves reasoning performance but also achieves significant sampling speedups while maintaining high performance on reasoning benchmarks.
- Abstract(参考訳): 近年の拡散言語モデル (DLMs) は,従来の自己回帰型大規模言語モデル (LLMs) に代わる有望な選択肢として提示されている。
しかし、DLMは、特にデノナイジングステップの数が減少するにつれて、LCMよりも遅れている。
分析の結果、この欠点は主に、トークン相関を捉えるのに失敗するデノナイジングステップにまたがるマスク付きトークンの独立生成から生じることが判明した。
本稿では、シーケンス内相関とシーケンス間相関という2種類のトークン相関を定義し、これらの相関の強化が推論性能を向上させることを示す。
そこで本研究では,DLM にトークン相関を考慮させるマルチリワード最適化 (MRO) 手法を提案する。
より具体的には、我々のMROアプローチは、テスト時間スケーリング、リジェクションサンプリング、強化学習を利用して、トークン相関を複数の精巧な報酬と直接最適化する。
さらに,報酬分散を緩和し,サンプリング効率を高めるために,グループステップと重要サンプリング戦略を導入する。
大規模な実験により,MROは推論性能を向上するだけでなく,推論ベンチマークにおける高い性能を維持しながら,サンプリングの高速化も達成できることが実証された。
関連論文リスト
- HatLLM: Hierarchical Attention Masking for Enhanced Collaborative Modeling in LLM-based Recommendation [17.271853114690902]
HatLLMは、シーケンシャルレコメンデーションのための大規模言語モデル(LLM)の階層的なアテンションマスキング戦略である。
HatLLM は既存の LLM ベースの手法よりも大きなパフォーマンス向上(平均 9.13% )を実現している。
論文 参考訳(メタデータ) (2025-10-13T03:05:03Z) - Beyond Next-Token Prediction: A Performance Characterization of Diffusion versus Autoregressive Language Models [82.87985794856803]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにおいて最先端のパフォーマンスを達成した。
最近、Diffusion Language Models (DLM) が有望な代替アーキテクチャとして登場した。
論文 参考訳(メタデータ) (2025-10-05T10:50:52Z) - WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM Pre-training [64.0932926819307]
本稿では,学習速度減衰とモデルマージの正式な関係を確立するフレームワークであるWarmup-Stable and Merge(WSM)を紹介する。
WSMは様々な崩壊戦略をエミュレートするための統一された理論基盤を提供する。
私たちのフレームワークは、複数のベンチマークで広く採用されているWarmup-Stable-Decay(WSD)アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-07-23T16:02:06Z) - Self-Reasoning Language Models: Unfold Hidden Reasoning Chains with Few Reasoning Catalyst [42.40884882220895]
モデル自体がより長いCoTデータを合成し、自己学習により性能を向上させることができる。
提案したSRLMは,5つの推論タスクに対して,平均2.5ドル以上の絶対値改善を実現している。
論文 参考訳(メタデータ) (2025-05-20T09:21:26Z) - d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning [31.531278643184656]
最近の大規模言語モデル(LLM)は、オンライン強化学習(RL)の恩恵を受ける強力な推論能力を示している。
教師付きファインタニング(SFT)とRLの組み合わせにより,事前学習したマスク付きdLLMを推論モデルに適応するフレームワークであるd1を提案する。
d1は最高の性能を示し、最先端のdLLMの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-16T16:08:45Z) - Don't Take Things Out of Context: Attention Intervention for Enhancing Chain-of-Thought Reasoning in Large Language Models [32.71672086718058]
CoT (Few-shot Chain-of-Thought) は大規模言語モデル (LLM) の推論能力を著しく向上させる
我々は、COTのデモで分離されたセグメント、単語、トークンが、予期せずLCMの生成過程を乱す可能性があることを観察する。
デモの注意パターンを動的に解析し,これらのトークンを正確に識別するFew-shot Attention Intervention法(FAI)を提案する。
論文 参考訳(メタデータ) (2025-03-14T07:46:33Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Causal Prompting: Debiasing Large Language Model Prompting based on Front-Door Adjustment [32.12998469814097]
大規模言語モデル(LLM)のバイアスを効果的に軽減するために,正面調整に基づく新たな因果的プロンプト手法を提案する。
実験結果から,提案手法は7つの自然言語処理データセットにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-03-05T07:47:34Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。