論文の概要: Rethinking Reward Models for Multi-Domain Test-Time Scaling
- arxiv url: http://arxiv.org/abs/2510.00492v2
- Date: Thu, 02 Oct 2025 02:37:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.371818
- Title: Rethinking Reward Models for Multi-Domain Test-Time Scaling
- Title(参考訳): マルチドメインテスト時間スケーリングのためのリワードモデルの再考
- Authors: Dong Bok Lee, Seanie Lee, Sangwoo Park, Minki Kang, Jinheon Baek, Dongki Kim, Dominik Wagner, Jiongdao Jin, Heejun Lee, Tobias Bocklet, Jinyu Wang, Jingjing Fu, Sung Ju Hwang, Jiang Bian, Lei Song,
- Abstract要約: 従来の作業では、プロセス報酬モデル(PRM)が最終回答のみを評価する結果報酬モデル(ORM)を上回っていると仮定しています。
14の異なる領域にまたがる4つの報酬モデル変種を統一的に評価する。
LLMの自動ラベル付けからラベルノイズを継承し,長い推論軌跡の評価に難渋するPRM方式の段階的スコアリングが原因と考えられる。
- 参考スコア(独自算出の注目度): 91.76069784586149
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The reliability of large language models (LLMs) during test-time scaling is often assessed with \emph{external verifiers} or \emph{reward models} that distinguish correct reasoning from flawed logic. Prior work generally assumes that process reward models (PRMs), which score every intermediate reasoning step, outperform outcome reward models (ORMs) that assess only the final answer. This view is based mainly on evidence from narrow, math-adjacent domains. We present the first unified evaluation of four reward model variants, discriminative ORM and PRM (\DisORM, \DisPRM) and generative ORM and PRM (\GenORM, \GenPRM), across 14 diverse domains. Contrary to conventional wisdom, we find that (i) \DisORM performs on par with \DisPRM, (ii) \GenPRM is not competitive, and (iii) overall, \GenORM is the most robust, yielding significant and consistent gains across every tested domain. We attribute this to PRM-style stepwise scoring, which inherits label noise from LLM auto-labeling and has difficulty evaluating long reasoning trajectories, including those involving self-correcting reasoning. Our theoretical analysis shows that step-wise aggregation compounds errors as reasoning length grows, and our empirical observations confirm this effect. These findings challenge the prevailing assumption that fine-grained supervision is always better and support generative outcome verification for multi-domain deployment. We publicly release our code, datasets, and checkpoints at \href{https://github.com/db-Lee/Multi-RM}{\underline{\small\texttt{https://github.com/db-Lee/Multi-RM}}} to facilitate future research in multi-domain settings.
- Abstract(参考訳): テスト時間スケーリング中の大きな言語モデル(LLM)の信頼性は、しばしば、欠陥論理からの正しい推論を区別する \emph{external verifiers} または \emph{reward model} で評価される。
これまでの作業では、プロセス報酬モデル(PRM)は、最終回答のみを評価する結果報酬モデル(ORM)よりも優れています。
この見解は、主に狭義の数学的な領域からの証拠に基づいている。
差別的ORMとPRM(\DisORM, \DisPRM)と生成的ORMとPRM(\GenORM, \GenPRM)を14のドメインで比較した。
従来の知恵とは対照的に、私たちはそれを見つける。
(i) \DisORM は \DisPRM,
(ii)GenPRMは競争力がなく、
(iii) 全体として、 \GenORMは最も堅牢で、テスト対象のドメイン毎に大きく一貫した利得をもたらします。
我々は,LPMの自動ラベル付けからラベルノイズを継承し,自己修正推論を含む長い推論軌跡の評価が困難であるPRMスタイルの段階的スコアリングを特徴としている。
理論的解析により, 推理長さが大きくなるにつれて, ステップワイドアグリゲーション化合物の誤差が増加し, 経験的観察によりこの効果が確認された。
これらの知見は、きめ細かい監督が常に優れているという仮定に挑戦し、マルチドメインデプロイメントにおける生成結果の検証をサポートする。
私たちは、コード、データセット、チェックポイントを \href{https://github.com/db-Lee/Multi-RM}{\underline{\small\textt{https://github.com/db-Lee/Multi-RM}}} で公開しています。
関連論文リスト
- How Reliable are Confidence Estimators for Large Reasoning Models? A Systematic Benchmark on High-Stakes Domains [7.845652284569666]
大規模推論モデルの誤校正は、高い領域における信頼性を損なう。
本稿では,6つの LRM から得られた347,496 個の推論トレースの公開リソースである Reasoning Model Confidence Estimation Benchmark (RMCB) を紹介する。
論文 参考訳(メタデータ) (2026-01-13T01:55:48Z) - Exploring Generative Process Reward Modeling for Semi-Structured Data: A Case Study of Table Question Answering [14.119525003137356]
プロセス報酬モデル(PRM)は、大規模言語モデル(LLM)における複雑な推論を改善する。
本研究は,テーブル質問応答(TQA)のためのPRMに関する最初の体系的研究である。
回答とステップの両面から,TQAにおける最先端のPRMを評価した。
論文 参考訳(メタデータ) (2025-10-23T07:49:39Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - DreamPRM: Domain-Reweighted Process Reward Model for Multimodal Reasoning [33.574626079343936]
マルチモーダルPRMのためのドメイン重み付けトレーニングフレームワークであるDreamPRMを紹介する。
低レベルの最適化では、DreamPRMはドメイン重み付き複数のデータセットで微調整を行う。
上位レベルの最適化では、PRMは別個のメタ学習データセットで評価される。
論文 参考訳(メタデータ) (2025-05-26T17:20:17Z) - MM-PRM: Enhancing Multimodal Mathematical Reasoning with Scalable Step-Level Supervision [27.571090189791303]
完全に自動化されたスケーラブルなフレームワーク内でトレーニングされたプロセス報酬モデルであるMM-PRMを提案する。
我々はまず,多様な数学的推論データに基づいて訓練された強力なマルチモーダルモデルMM-Policyを構築した。
人間のラベル付けなしで700万以上のステップレベルのアノテーションを生成します。
論文 参考訳(メタデータ) (2025-05-19T17:55:08Z) - Process Reward Models That Think [85.06022494911811]
ステップバイステップ検証 - プロセス報酬モデル(PRM)としても知られる - は、テスト時間スケーリングの鍵となる要素である。
この研究は、検証チェーン・オブ・シント(CoT)を生成することにより、ソリューションのすべてのステップを検証する言語化されたステップワイド報酬モデルとして、データ効率の高いPRMを構築することを目的としている。
我々は差別的PRMよりもプロセスラベルを桁違いに少なめに微調整した長いCoT検証器ThinkPRMを提案する。
論文 参考訳(メタデータ) (2025-04-23T15:44:54Z) - VersaPRM: Multi-Domain Process Reward Model via Synthetic Reasoning Data [21.460891616139534]
本稿では,新しいデータ生成法とアノテーション法を用いて生成した合成推論データに基づいて学習したマルチドメインPRMであるVersaPRMを紹介する。
VersaPRMはさまざまなドメインで一貫したパフォーマンス向上を実現している。
VersaPRMのすべてのデータ、コード、モデルをオープンソース化することで、コミュニティにさらに貢献します。
論文 参考訳(メタデータ) (2025-02-10T18:03:36Z) - SMaRt: Improving GANs with Score Matching Regularity [114.43433222721025]
生成的敵ネットワーク(GAN)は通常、基礎となる多様体が複雑である非常に多様なデータから学ぶのに苦労する。
スコアマッチングは、生成したデータポイントを実データ多様体へ持続的にプッシュする能力のおかげで、この問題に対する有望な解決策であることがわかった。
提案手法は, 実世界のデータセットにおいて, 近似スコア関数として機能する事前学習拡散モデルを用いて, 最先端のGANの性能を継続的に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-11-30T03:05:14Z) - Domain-Expanded ASTE: Rethinking Generalization in Aspect Sentiment Triplet Extraction [67.54420015049732]
Aspect Sentiment Triplet extract (ASTE) は感情分析における課題であり、人間の感情に対するきめ細かい洞察を提供することを目的としている。
既存のベンチマークは2つのドメインに限定されており、目に見えないドメイン上でのモデルパフォーマンスを評価しない。
各種ドメインのサンプルに注釈を付けることでドメイン拡張ベンチマークを導入し,ドメイン内設定とドメイン外設定の両方でモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-05-23T18:01:49Z) - META: Mimicking Embedding via oThers' Aggregation for Generalizable
Person Re-identification [68.39849081353704]
Domain Generalizable (DG) Person Re-identification (ReID)は、トレーニング時に対象のドメインデータにアクセスすることなく、見えないドメインをまたいでテストすることを目的としている。
本稿では,DG ReID のための OThers' Aggregation (META) を用いた Mimicking Embedding という新しい手法を提案する。
論文 参考訳(メタデータ) (2021-12-16T08:06:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。