論文の概要: S2J: Bridging the Gap Between Solving and Judging Ability in Generative Reward Models
- arxiv url: http://arxiv.org/abs/2509.22099v1
- Date: Fri, 26 Sep 2025 09:21:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.326116
- Title: S2J: Bridging the Gap Between Solving and Judging Ability in Generative Reward Models
- Title(参考訳): S2J:ジェネレーティブリワードモデルにおける解決と判断のギャップを埋める
- Authors: Shaoning Sun, Jiachen Yu, Zongqi Wang, Xuewei Yang, Tianle Gu, Yujiu Yang,
- Abstract要約: 生成報酬モデル(GRM)は報酬モデルや評価に広く採用されている。
従来の研究は主に、選好データセットに基づいて、判断の正しさを監督として最適化することで、専門的なGEMの訓練に重点を置いてきた。
この問題に対処するためのS2J(Solve-to-Judge)アプローチを提案する。
- 参考スコア(独自算出の注目度): 42.559286757072556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of large language models (LLMs), generative reward models (GRMs) have been widely adopted for reward modeling and evaluation. Previous studies have primarily focused on training specialized GRMs by optimizing them on preference datasets with the judgment correctness as supervision. While it's widely accepted that GRMs with stronger problem-solving capabilities typically exhibit superior judgment abilities, we first identify a significant solve-to-judge gap when examining individual queries. Specifically, the solve-to-judge gap refers to the phenomenon where GRMs struggle to make correct judgments on some queries (14%-37%), despite being fully capable of solving them. In this paper, we propose the Solve-to-Judge (S2J) approach to address this problem. Specifically, S2J simultaneously leverages both the solving and judging capabilities on a single GRM's output for supervision, explicitly linking the GRM's problem-solving and evaluation abilities during model optimization, thereby narrowing the gap. Our comprehensive experiments demonstrate that S2J effectively reduces the solve-to-judge gap by 16.2%, thereby enhancing the model's judgment performance by 5.8%. Notably, S2J achieves state-of-the-art (SOTA) performance among GRMs built on the same base model while utilizing a significantly smaller training dataset. Moreover, S2J accomplishes this through self-evolution without relying on more powerful external models for distillation.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な発展に伴い、生成報酬モデル(GRM)は報酬モデルや評価に広く採用されている。
従来の研究は主に、選好データセットに基づいて、判断の正しさを監督として最適化することで、専門的なGEMの訓練に重点を置いてきた。
より強力な問題解決能力を持つGRMは、一般的に優れた判断能力を示すと広く受け入れられているが、個々のクエリを調べる際には、まず重要な解決と判断のギャップを識別する。
具体的には、解答のギャップとは、GRMが解答能力が十分にあるにもかかわらず、いくつかのクエリ(14%-37%)で正しい判断を下すのに苦労している現象を指す。
本稿では,この問題に対処するためのS2J(Solve-to-Judge)アプローチを提案する。
具体的には、S2J は単一の GRM の出力の解法と判定能力を同時に活用し、モデル最適化中に GRM の問題解決能力と評価能力を明示的にリンクし、ギャップを狭める。
包括的実験により,S2Jは解と解のギャップを16.2%削減し,モデルの判定性能を5.8%向上させることを示した。
特に、S2Jは、トレーニングデータセットをはるかに小さくして、同じベースモデル上に構築されたGRMの最先端(SOTA)パフォーマンスを達成する。
さらに、S2Jは蒸留のためのより強力な外部モデルに頼ることなく、自己進化によってこれを達成している。
関連論文リスト
- ReasonGRM: Enhancing Generative Reward Models through Large Reasoning Models [9.30148520355391]
本稿では,3段階生成報酬モデルフレームワークReasonGRMを紹介する。
第1段階では、ゼロRLは簡潔で結果指向の推論パスを生成するために使用される。
第2段階では、$Rstar$は、生成可能性に基づいて推論パスをスコアする。
最終段階では、モデルは強化学習によりさらに洗練され、好みの識別能力が向上する。
論文 参考訳(メタデータ) (2025-06-20T03:10:52Z) - Assessing Judging Bias in Large Reasoning Models: An Empirical Study [99.86300466350013]
DeepSeek-R1やOpenAI-o1のような大きな推論モデル(LRM)は、顕著な推論能力を示している。
本稿では、主観的嗜好アライメントデータセットと客観的事実ベースデータセットの両方において、LLMとLRMの偏りを判定するベンチマークを示す。
論文 参考訳(メタデータ) (2025-04-14T07:14:27Z) - ProJudge: A Multi-Modal Multi-Discipline Benchmark and Instruction-Tuning Dataset for MLLM-based Process Judges [13.957207630090064]
ProJudgeBenchはMLLMベースのプロセス判断器の能力を評価するために設計された最初のベンチマークである。
ProJudgeBenchは2,400件のテストケースと50,118件のステップレベルラベルで構成され、4つの科学分野にまたがっている。
ProJudgeBenchの評価は、オープンソースのモデルとプロプライエタリなモデルの間の大きなパフォーマンスギャップを明らかにしている。
論文 参考訳(メタデータ) (2025-03-09T10:55:51Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer [59.43462055143123]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。
本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。
我々は,各専門家が他の専門家に分散された部分空間への方向を更新するように促す訓練戦略を交互に提案する。
論文 参考訳(メタデータ) (2023-10-15T07:20:28Z) - AGRO: Adversarial Discovery of Error-prone groups for Robust
Optimization [109.91265884632239]
群分散ロバスト最適化(G-DRO)は、トレーニングデータに対する事前定義されたグループのセットに対する最悪の損失を最小限にすることができる。
本稿では、分散ロバスト最適化のためのAGRO -- Adversarial Group Discoveryを提案する。
AGROは、既知の最悪のグループの平均モデルパフォーマンスを8%向上させる。
論文 参考訳(メタデータ) (2022-12-02T00:57:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。