論文の概要: You Only Judge Once: Multi-response Reward Modeling in a Single Forward Pass
- arxiv url: http://arxiv.org/abs/2604.10966v2
- Date: Wed, 15 Apr 2026 22:13:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 16:09:14.151896
- Title: You Only Judge Once: Multi-response Reward Modeling in a Single Forward Pass
- Title(参考訳): 一度だけ判断する: シングルフォワードパスでのマルチレスポンスリワードモデリング
- Authors: Yinuo Yang, Zixian Ma, Manasi Ganti, Jieyu Zhang, Ranjay Krishna,
- Abstract要約: 本稿では,1回の前方通過で全ての候補応答を判定する識別的マルチモーダル報酬モデルを提案する。
マルチレスポンス設計では、従来のシングルレスポンススコアよりも最大$Ntimes$ウォールクロックのスピードアップとFLOPの削減も得られる。
我々のモデルは、既存のより大きな生成的および差別的な報酬モデルよりも優れています。
- 参考スコア(独自算出の注目度): 40.11359880802771
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a discriminative multimodal reward model that scores all candidate responses in a single forward pass. Conventional discriminative reward models evaluate each response independently, requiring multiple forward passes, one for each potential response. Our approach concatenates multiple responses with separator tokens and applies cross-entropy over their scalar scores, enabling direct comparative reasoning and efficient $N$-way preference learning. The multi-response design also yields up to $N\times$ wall-clock speedup and FLOPs reduction over conventional single-response scoring. To enable $N$-way reward evaluation beyond existing pairwise benchmarks, we construct two new benchmarks: (1) MR$^2$Bench-Image contains human-annotated rankings over responses from 8 diverse models; (2) MR$^2$Bench-Video is a large-scale video-based reward benchmark derived from 94K crowdsourced pairwise human judgments over video question-answering spanning 19 models, denoised via preference graph ensemble. Both benchmarks provide 4-response evaluation variants sampled from the full rankings. Built on a 4B vision-language backbone with LoRA fine-tuning and a lightweight MLP value head, our model achieves state-of-the-art results on six multimodal reward benchmarks, including MR$^2$Bench-Image, MR$^2$Bench-Video, and four other existing benchmarks. Our model outperforms existing larger generative and discriminative reward models. We further demonstrate that our reward model, when used in reinforcement learning with GRPO, produces improved policy models that maintain performance across standard multimodal benchmarks while substantially improving open-ended generation quality, outperforming a single-response discriminative reward model (RM) baseline by a large margin in both training stability and open-ended generation quality.
- Abstract(参考訳): 本稿では,1つの前方パスで全ての候補応答をスコアする識別的マルチモーダル報酬モデルを提案する。
従来の差別報酬モデルでは、各応答を独立に評価し、各応答に対して複数の前方通過が必要となる。
提案手法は,複数の応答をセパレータトークンと結合し,スカラースコアにクロスエントロピーを適用し,直接比較推論と効率的な$N$-way選好学習を可能にする。
マルチレスポンス設計では、従来のシングルレスポンススコアよりも最大$N\times$wall- clock speedupとFLOPsが削減される。
1)MR$^2$Bench-Imageには8つのモデルからの応答に対する人間の注釈付きランキングが含まれており、(2)MR$^2$Bench-Videoは94Kのクラウドソーシングによる19のモデルに対するペアワイドな判断から派生した大規模ビデオベース報酬ベンチマークである。
両方のベンチマークは、完全なランキングからサンプリングされた4-レスポンス評価のバリエーションを提供する。
MR$2$Bench-Image,MR$2$Bench-Video,および他の4つの既存ベンチマークを含む6つのマルチモーダル報酬ベンチマークにおいて,LoRAファインチューニングと軽量MLP値ヘッドを備えた4Bビジョン言語バックボーン上に構築した。
我々のモデルは、既存のより大きな生成的および差別的な報酬モデルよりも優れています。
さらに, GRPOを用いた強化学習において, 標準マルチモーダルベンチマークにおける性能向上と, オープンエンド生成品質の大幅な向上を図り, トレーニング安定性とオープンエンド生成品質の両面において, 単一応答型識別報酬モデル(RM)ベースラインよりも優れた性能を示した。
関連論文リスト
- Personalized RewardBench: Evaluating Reward Models with Human Aligned Personalization [12.964518425036168]
パーソナライズド・リワードベンチ(Personalized RewardBench)は、パーソナライズされた好みをモデル化するための報酬モデルの能力を厳格に評価する新しいベンチマークである。
選択された応答対と拒否された応答対は、ユーザ固有のルーリックへの厳密な固執(または違反)に基づいて構成し、好みの区別が個人ごとに一意に調整されていることを保証します。
本ベンチマークでは,既存のベースラインと比較して,Best-of-N(BoN)サンプリングとPPO(Porximal Policy Optimization)の両方において,ダウンストリーム性能と有意に高い相関関係を示した。
論文 参考訳(メタデータ) (2026-04-08T17:55:00Z) - Multimodal RewardBench: Holistic Evaluation of Reward Models for Vision Language Models [82.92771279118888]
マルチモーダル報酬モデルを評価するためのエキスパートアノテートベンチマークであるMultimodal RewardBenchを紹介する。
我々のデータセットは、様々な視覚言語モデルから収集された5,211個の注釈付き(プロンプト、選択された応答、拒否された応答)三つ子からなる。
Gemini 1.5 ProやClaude 3.5 Sonnetといったトップパフォーマンスモデルでさえ、全体的な精度は72%に過ぎません。
論文 参考訳(メタデータ) (2025-02-20T01:48:13Z) - InternLM-XComposer2.5-Reward: A Simple Yet Effective Multi-Modal Reward Model [80.93387166769679]
IXC-2.5-Rewardは、大規模視覚言語モデルと人間の好みを一致させる、単純で効果的なマルチモーダル報酬モデルである。
IXC-2.5-Rewardは、最新のマルチモーダル報酬モデルベンチマークにおいて優れた結果を得るとともに、テキストのみの報酬モデルベンチマーク上での競合性能を示す。
論文 参考訳(メタデータ) (2025-01-21T18:47:32Z) - RM-Bench: Benchmarking Reward Models of Language Models with Subtlety and Style [37.97757796124621]
RM-Benchは、微妙な内容の違いに対する感度とスタイルバイアスに対する耐性に基づいて報酬モデルを評価するために設計された新しいベンチマークである。
RM-Bench上で40近い報酬モデルを評価し,最先端モデルでさえ平均性能は46.6%に過ぎなかった。
論文 参考訳(メタデータ) (2024-10-21T16:48:26Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。