論文の概要: Fast-Slow Thinking RM: Efficient Integration of Scalar and Generative Reward Models
- arxiv url: http://arxiv.org/abs/2603.20212v1
- Date: Mon, 02 Mar 2026 15:48:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.890998
- Title: Fast-Slow Thinking RM: Efficient Integration of Scalar and Generative Reward Models
- Title(参考訳): Fast-Slow Thinking RM: Scalarとジェネレーティブリワードモデルの効率的な統合
- Authors: Jiayun Wu, Peixu Hou, Shan Qu, Peng Zhang, Ning Gu, Tun Lu,
- Abstract要約: 本稿では、デュアルプロセス理論にインスパイアされたハイブリッドRMアーキテクチャであるFast-Slow Thinking Reward Models (F/S-RM)を紹介する。
ひとつは、スカラースコア(高速思考)としての第一段階の予測と、CoTベースの判断(スロー思考)である。
F/S-RMは、最先端モデルの相対的な性能を1.2%向上させ、トークン消費量を20.8%削減する。
- 参考スコア(独自算出の注目度): 16.460841602259787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward models (RMs) are critical for aligning Large Language Models via Reinforcement Learning from Human Feedback (RLHF). While Generative Reward Models (GRMs) achieve superior accuracy through chain-of-thought (CoT) reasoning, they incur substantial computational costs. Conversely, Scalar Reward Models (SRMs) offer efficiency but suffer from limited performance and adaptability in complex scenarios. We introduce Fast-Slow Thinking Reward Models (F/S-RM), a hybrid RM architecture inspired by Dual Process Theory. It trains a single model to integrate two distinct reward paradigms: first-token prediction as a scalar score (fast thinking) and CoT-based judgment (slow thinking), regulated by a dual-confidence activation mechanism that determines when to activate slow thinking. F/S-RM achieves a 1.2% relative performance improvement over state-of-the-art models while reducing token consumption by 20.8%. Code and data will be publicly available.
- Abstract(参考訳): Reward Model (RM) は、Reinforcement Learning from Human Feedback (RLHF) を通じて大規模言語モデルを調整するために重要である。
ジェネレーティブ・リワード・モデル(GRM)はチェーン・オブ・シント(CoT)推論により精度が向上するが、計算コストはかなり高い。
逆に、Scalar Reward Models (SRM) は効率性を提供するが、複雑なシナリオではパフォーマンスと適応性に制限がある。
本稿では、デュアルプロセス理論にインスパイアされたハイブリッドRMアーキテクチャであるFast-Slow Thinking Reward Models (F/S-RM)を紹介する。
ひとつは、スカラースコア(高速思考)としてのファーストツーケン予測とCoTベースの判断(スロー思考)である。
F/S-RMは、最先端モデルの相対的な性能を1.2%向上させ、トークン消費量を20.8%削減する。
コードとデータは公開されます。
関連論文リスト
- Tiny Autoregressive Recursive Models [48.902738432071935]
Tiny Recursive Models (TRMs) は最近のARC-AGIで顕著な性能を示した。
本稿では、自己回帰TRMを提案し、小さな自己回帰タスクで評価する。
期待に反して、完全なAutoregressive TRMアーキテクチャによる信頼性の高いパフォーマンス向上は見つからない。
論文 参考訳(メタデータ) (2026-03-09T08:22:45Z) - Efficient Reasoning via Reward Model [24.105621725286497]
検証可能な報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)の推論能力を高めることが示されている。
DeepSeek-R1 や OpenAI o1 のような LRM は、過剰または無関係な推論ステップを含む冗長な応答をしばしば生成する。
本稿では,結果報酬と簡潔度スコアとの間に明確な依存性を有する,CRF(Conciseness Reward Function)という新たな報酬定式化を導入する。
論文 参考訳(メタデータ) (2025-11-12T09:51:07Z) - Discriminative Policy Optimization for Token-Level Reward Models [55.98642069903191]
プロセス報酬モデル(PRM)は、結果報酬モデル(ORM)と比較して、よりきめ細かい監督を提供する。
Q-RMは、微粒なアノテーションに頼ることなく、優先データからトークンレベルのQ関数を明示的に学習する。
Q-RMによる強化学習は、トレーニング効率を大幅に向上させ、GSM8KでのORMの12倍、MATHでのステップレベルPRMの11倍の収束を実現した。
論文 参考訳(メタデータ) (2025-05-29T11:40:34Z) - Think-RM: Enabling Long-Horizon Reasoning in Generative Reward Models [50.4652276723694]
Think-RMは、高度な機能をサポートするフレキシブルで自己誘導的な推論トレースを生成する。
Think-RM は RM-Bench 上で最先端の結果を達成し,BT RM と GenRM の垂直スケールを8% 上回った。
論文 参考訳(メタデータ) (2025-05-22T05:56:11Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。