論文の概要: Think-RM: Enabling Long-Horizon Reasoning in Generative Reward Models
- arxiv url: http://arxiv.org/abs/2505.16265v1
- Date: Thu, 22 May 2025 05:56:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.073628
- Title: Think-RM: Enabling Long-Horizon Reasoning in Generative Reward Models
- Title(参考訳): Think-RM: ジェネレーティブリワードモデルにおけるロングホライゾン推論の実現
- Authors: Ilgee Hong, Changlong Yu, Liang Qiu, Weixiang Yan, Zhenghao Xu, Haoming Jiang, Qingru Zhang, Qin Lu, Xin Liu, Chao Zhang, Tuo Zhao,
- Abstract要約: Think-RMは、高度な機能をサポートするフレキシブルで自己誘導的な推論トレースを生成する。
Think-RM は RM-Bench 上で最先端の結果を達成し,BT RM と GenRM の垂直スケールを8% 上回った。
- 参考スコア(独自算出の注目度): 50.4652276723694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning from human feedback (RLHF) has become a powerful post-training paradigm for aligning large language models with human preferences. A core challenge in RLHF is constructing accurate reward signals, where the conventional Bradley-Terry reward models (BT RMs) often suffer from sensitivity to data size and coverage, as well as vulnerability to reward hacking. Generative reward models (GenRMs) offer a more robust alternative by generating chain-of-thought (CoT) rationales followed by a final reward. However, existing GenRMs rely on shallow, vertically scaled reasoning, limiting their capacity to handle nuanced or complex (e.g., reasoning-intensive) tasks. Moreover, their pairwise preference outputs are incompatible with standard RLHF algorithms that require pointwise reward signals. In this work, we introduce Think-RM, a training framework that enables long-horizon reasoning in GenRMs by modeling an internal thinking process. Rather than producing structured, externally provided rationales, Think-RM generates flexible, self-guided reasoning traces that support advanced capabilities such as self-reflection, hypothetical reasoning, and divergent reasoning. To elicit these reasoning abilities, we first warm-up the models by supervised fine-tuning (SFT) over long CoT data. We then further improve the model's long-horizon abilities by rule-based reinforcement learning (RL). In addition, we propose a novel pairwise RLHF pipeline that directly optimizes policies using pairwise preference rewards, eliminating the need for pointwise reward conversion and enabling more effective use of Think-RM outputs. Experiments show that Think-RM achieves state-of-the-art results on RM-Bench, outperforming both BT RM and vertically scaled GenRM by 8%. When combined with our pairwise RLHF pipeline, it demonstrates superior end-policy performance compared to traditional approaches.
- Abstract(参考訳): 人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデルと人間の嗜好を整合させるための訓練後の強力なパラダイムとなっている。
RLHFの中核的な課題は正確な報酬信号を構築することであり、従来型のBradley-Terry報酬モデル(BT RM)は、しばしばデータサイズやカバレッジに対する感受性や、ハッキングに対する脆弱性に悩まされる。
生成的報酬モデル(GenRMs)は、チェーン・オブ・シント(CoT)の合理性を生成し、最終的な報酬を生成することによって、より堅牢な代替手段を提供する。
しかし、既存のGenRMは浅く、垂直にスケールした推論に依存しており、微妙なタスクや複雑なタスク(例えば推論集約)を扱う能力に制限されている。
さらに、それらのペアワイズ選好出力は、ポイントワイズ報酬信号を必要とする標準のRLHFアルゴリズムと互換性がない。
本稿では、内的思考プロセスのモデル化により、GenRMにおける長期的推論を可能にするトレーニングフレームワークThink-RMを紹介する。
Think-RMは、構造化された外部から提供された合理性を生成するのではなく、自己回帰、仮説推論、発散推論といった高度な能力をサポートする柔軟な自己誘導推論トレースを生成する。
これらの推論能力を引き出すために、我々はまず、長いCoTデータに対して教師付き微調整(SFT)によってモデルをウォームアップする。
次に,ルールベース強化学習(RL)により,モデル長水平能力をさらに向上する。
さらに,ペアワイズ報酬を用いたポリシーを直接最適化し,ポイントワイズ報酬変換の必要性を排除し,Think-RM出力をより効果的に活用する,新しいペアワイズRLHFパイプラインを提案する。
実験の結果,Think-RM は BT RM と 垂直スケールGenRM を 8% 上回って RM-Bench の最先端化を実現していることがわかった。
ペアワイズなRLHFパイプラインを組み合わせると、従来のアプローチよりも優れたエンドツーエンドのパフォーマンスが示されます。
関連論文リスト
- Reward Reasoning Model [104.39256985858428]
Reward Reasoning Models (RRM) は、最終的な報酬を生成する前に意図的に推論プロセスを実行するように設計されている。
自己発展型報酬推論能力を育成する強化学習フレームワークを実装した。
特に、RTMはテスト時間計算を適応的に利用して報酬の精度をさらに向上させることができる。
論文 参考訳(メタデータ) (2025-05-20T17:58:03Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - Inference-Time Scaling for Generalist Reward Modeling [25.62000059973935]
強化学習(RL)は大規模言語モデル(LLM)のポストトレーニングにおいて広く採用されている。
RLの主な課題は、検証可能な質問や人工ルールを超えて、様々な領域のLLMに対して正確な報酬信号を得ることである。
本研究では,一般問合せに対する推論計算により,報酬モデルを改善する方法について検討する。
論文 参考訳(メタデータ) (2025-04-03T11:19:49Z) - Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models [33.547353090281284]
階層的リワードモデルと呼ばれる新しい報酬モデル手法を提案する。
個々の推論ステップと連続推論ステップを、きめ細かいレベルと粗いレベルの両方で評価する。
これは多段階推論コヒーレンスの評価に優れており、特に欠陥のあるステップが後に自己回帰によって修正される場合である。
論文 参考訳(メタデータ) (2025-03-16T15:18:40Z) - WARM: On the Benefits of Weight Averaged Reward Models [63.08179139233774]
Weight Averaged Reward Models (WARM) を提案する。
最良N法とRL法を用いた要約タスクの実験は、WARMがLLM予測の全体的な品質とアライメントを改善することを示す。
論文 参考訳(メタデータ) (2024-01-22T18:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。