Fugu-MT 論文翻訳(概要): DuaShepherd: Integrating Stepwise Correctness and Potential Rewards for Mathematical Reasoning

論文の概要: DuaShepherd: Integrating Stepwise Correctness and Potential Rewards for Mathematical Reasoning

arxiv url: http://arxiv.org/abs/2506.17533v1
Date: Sat, 21 Jun 2025 01:11:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-24 19:06:36.461143
Title: DuaShepherd: Integrating Stepwise Correctness and Potential Rewards for Mathematical Reasoning
Title（参考訳）: DuaShepherd: 数学的推論のためのステップワイドな正しさとポテンシャルリワードの統合
Authors: Yuanhao Wu, Juntong Song, Hanning Zhang, Tong Zhang, Cheng Niu,
Abstract要約: 本稿では,2つの相補的な報酬信号,正当性,ポテンシャルを統合した新たな報酬モデリングフレームワークを提案する。これら2つの信号を複合確率に組み合わせることで,複数のベンチマークで一貫した性能向上を実現している。
参考スコア（独自算出の注目度）: 9.442512200094688
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we propose DuaShepherd, a novel reward modeling framework that integrates two complementary reward signals, correctness and potential, to enhance the mathematical reasoning capabilities of Large Language Models (LLMs). While correctness-based signals emphasize identification of stepwise errors, potential-based signals focus on the likelihood of reaching the correct final answer. We developed an automated pipeline for constructing large-scale reward modeling dataset with both signals. A unified, multi-head architecture was explored to train the two reward models in a multi-task setup, demonstrating benefits from learning both correctness and potential in parallel. By combining these two signals into a compound probability, our model achieves consistent performance improvements across multiple benchmarks. Empirical evaluations on MATH500 and ProcessBench confirm that this combined reward significantly outperforms models trained on either reward type alone, achieving state-of-the-art performance under comparable resource constraints.
Abstract（参考訳）: 本稿では,Large Language Models (LLMs) の数学的推論能力を高めるために,2つの相補的な報酬信号,正当性,ポテンシャルを統合した新たな報酬モデリングフレームワークであるDuaShepherdを提案する。正当性に基づく信号はステップワイズエラーの識別を強調するが、電位ベースの信号は正しい最終回答に到達する可能性に焦点を当てる。両信号を用いた大規模報酬モデルデータセットを構築するための自動パイプラインを開発した。マルチタスク設定で2つの報酬モデルをトレーニングするために、統一されたマルチヘッドアーキテクチャが検討された。これら2つの信号を複合確率に組み合わせることで,複数のベンチマークで一貫した性能向上を実現している。 MATH500とProcessBenchの実証的な評価では、この組み合わせによる報酬は報酬型だけで訓練されたモデルよりも大幅に優れており、同等のリソース制約下での最先端のパフォーマンスを実現している。

関連論文リスト

Fast State-Augmented Learning for Wireless Resource Allocation with Dual Variable Regression [83.27791109672927]
本稿では,資源割当ポリシに対する状態拡張グラフニューラルネットワーク(GNN)のパラメトリゼーションが,ユビキタスな二段階的手法の欠点を回避する方法を示す。ラグランジアンによる国家拡張政策の最大化は、オフライントレーニングフェーズ中に学習される。収束結果と指数確率は、双対函数(有限値)最適性ギャップの剰余に縛られることを証明する。
論文参考訳（メタデータ） (2025-06-23T15:20:58Z)
Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文参考訳（メタデータ） (2025-06-10T12:59:14Z)
Discriminative Policy Optimization for Token-Level Reward Models [55.98642069903191]
プロセス報酬モデル(PRM)は、結果報酬モデル(ORM)と比較して、よりきめ細かい監督を提供する。 Q-RMは、微粒なアノテーションに頼ることなく、優先データからトークンレベルのQ関数を明示的に学習する。 Q-RMによる強化学習は、トレーニング効率を大幅に向上させ、GSM8KでのORMの12倍、MATHでのステップレベルPRMの11倍の収束を実現した。
論文参考訳（メタデータ） (2025-05-29T11:40:34Z)
Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning [45.16917994431658]
本稿では,最初の統一マルチモーダルCoT型報酬モデルUnifiedReward-Thinkを提案する。まず、GPT-4oの推論過程を抽出するために、少量の画像生成嗜好データを用いる。次に、大規模に統一されたマルチモーダル嗜好データを作成し、様々な視覚タスクにわたってモデルの推論プロセスを導出する。
論文参考訳（メタデータ） (2025-05-06T08:46:41Z)
RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-05-05T06:11:12Z)
Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems [54.4392552373835]
リワードモデル(RM)は、大規模言語モデル(LLM)のトレーニングと推論時間のスケールアップに不可欠である本稿では,報酬モデルと検証可能な正当性信号を組み合わせた報酬システムであるエージェント報酬モデルを提案する。我々は,既存の報奨モデルベンチマークと実世界の下流タスクのベスト・オブ・n検索に関する総合的な実験を行う。
論文参考訳（メタデータ） (2025-02-26T17:19:12Z)
Let's Reinforce Step by Step [10.65244642965387]
人間のフィードバックからの強化学習をモデル推論の形式化に活用する。以上の結果から, PRM法により得られる微粒な報酬は, 単純な数学的推論の精度を高めることが示唆された。また、モデル性能において、報酬アグリゲーション関数が果たす重要な役割を示す。
論文参考訳（メタデータ） (2023-11-10T01:35:51Z)
Let's reward step by step: Step-Level reward model as the Navigators for Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。 LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文参考訳（メタデータ） (2023-10-16T05:21:50Z)
Local Consensus Enhanced Siamese Network with Reciprocal Loss for Two-view Correspondence Learning [35.5851523517487]
2視点対応学習は通常、一致の信頼性と相対的なポーズを共同で予測するエンドツーエンドネットワークを確立する。本稿では,既存のモデルの特徴を増強するローカル・フィーチャー・コンセンサス (LFC) プラグイン・ブロックを提案する。我々は既存のモデルを相互予測の監督を生かした相互損失を伴うシームズネットワークに拡張する。
論文参考訳（メタデータ） (2023-08-06T22:20:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。