論文の概要: Joint Reward Modeling: Internalizing Chain-of-Thought for Efficient Visual Reward Models
- arxiv url: http://arxiv.org/abs/2602.07533v1
- Date: Sat, 07 Feb 2026 13:09:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.675021
- Title: Joint Reward Modeling: Internalizing Chain-of-Thought for Efficient Visual Reward Models
- Title(参考訳): 関節リワードモデリング:効率的な視覚リワードモデルのための内在化チェーン
- Authors: Yankai Yang, Yancheng Long, Hongyang Wei, Wei Chen, Tianke Zhang, Kaiyu Jiang, Haonan Fan, Changyi Liu, Jiankang Chen, Kaiyu Tang, Bin Wen, Fan Yang, Tingting Gao, Han Li, Shuo Yang,
- Abstract要約: 生成的報酬モデルは、より強力な意味的理解と推論を提供するが、推論時にコストがかかり、人間の好みと直接整合することが困難である。
本稿では,共用視覚言語バックボーン上での好み学習と言語モデリングを協調的に最適化するジョイント・リワード・モデリング(JRM)を提案する。
JRM は MMRB2 と EditReward-Bench の最先端化を実現し,下流オンライン強化学習における安定性と性能を著しく向上させる。
- 参考スコア(独自算出の注目度): 22.77769800361136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward models are critical for reinforcement learning from human feedback, as they determine the alignment quality and reliability of generative models. For complex tasks such as image editing, reward models are required to capture global semantic consistency and implicit logical constraints beyond local similarity. Existing reward modeling approaches have clear limitations. Discriminative reward models align well with human preferences but struggle with complex semantics due to limited reasoning supervision. Generative reward models offer stronger semantic understanding and reasoning, but they are costly at inference time and difficult to align directly with human preferences. To this end, we propose Joint Reward Modeling (JRM), which jointly optimizes preference learning and language modeling on a shared vision-language backbone. This approach internalizes the semantic and reasoning capabilities of generative models into efficient discriminative representations, enabling fast and accurate evaluation. JRM achieves state-of-the-art results on MMRB2 and EditReward-Bench, and significantly improves stability and performance in downstream online reinforcement learning. These results show that joint training effectively bridges efficiency and semantic understanding in reward modeling.
- Abstract(参考訳): リワードモデルは、生成モデルのアライメント品質と信頼性を決定するため、人間のフィードバックからの強化学習に不可欠である。
画像編集のような複雑なタスクでは、報酬モデルがグローバルな意味的一貫性と暗黙的な論理的制約を局所的な類似性を超えて捉えるために必要である。
既存の報酬モデリングアプローチには明確な制限がある。
差別的な報酬モデルは人間の好みとよく一致しているが、推論の監督が限られているため複雑な意味論に苦しむ。
生成的報酬モデルは、より強力な意味的理解と推論を提供するが、推論時にコストがかかり、人間の好みと直接整合することが困難である。
そこで本研究では,共用視覚言語バックボーン上での嗜好学習と言語モデリングを協調的に最適化するジョイント・リワード・モデリング(JRM)を提案する。
このアプローチは、生成モデルのセマンティクスと推論能力を効率的な識別表現に内包し、高速で正確な評価を可能にする。
JRM は MMRB2 と EditReward-Bench の最先端化を実現し,下流オンライン強化学習における安定性と性能を著しく向上させる。
これらの結果から,共同学習は報酬モデルにおける効率性と意味的理解を効果的に橋渡しすることを示した。
関連論文リスト
- Better Language Model-Based Judging Reward Modeling through Scaling Comprehension Boundaries [3.930598942647121]
本稿では、説明に基づくスロットフレームワークを用いて予測を行う2段階のLMに基づく評価報酬モデルを提案する。
ヒューマンフィードバック(RLHF)からの強化学習とアウト・オブ・ディストリビューション(OOD)シナリオの両方において、ESFP-RMフレームワークはより安定的で一般化可能な報酬信号を提供する。
論文 参考訳(メタデータ) (2025-08-25T17:11:28Z) - Reward Models Can Improve Themselves: Reward-Guided Adversarial Failure Mode Discovery for Robust Reward Modeling [27.11560841914813]
本稿では,自己改善型報酬モデルであるREFORMを紹介する。
我々は、広く使われている2つの嗜好データセットであるArthhropic Helpful Harmless (HH)とPKU Beavertailsについて、REFORMを評価した。
論文 参考訳(メタデータ) (2025-07-08T21:56:33Z) - A Simple "Motivation" Can Enhance Reinforcement Finetuning of Large Reasoning Models [103.88578274567784]
MeRF(Motivation-enhanced Reinforcement Finetuning)は、大規模共振モデルの強化微調整を強化する直感的かつ効果的な方法である。
MeRFは報酬仕様を直接プロンプトに注入し、最適化目標を認識するためのコンテキスト内モチベーションとして機能する。
MeRFはRLVRベースラインよりもパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2025-06-23T10:37:57Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - Evaluating Robustness of Reward Models for Mathematical Reasoning [14.97819343313859]
本稿では,報酬モデルの信頼性評価のための新しい設計を提案し,これを検証するためにRewardMATHを構築した。
RewardMATHのスコアは、最適化されたポリシーの結果と強く相関し、効果的に報酬過大評価を推定する。
論文 参考訳(メタデータ) (2024-10-02T16:39:58Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。