論文の概要: BaseReward: A Strong Baseline for Multimodal Reward Model
- arxiv url: http://arxiv.org/abs/2509.16127v1
- Date: Fri, 19 Sep 2025 16:25:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.243014
- Title: BaseReward: A Strong Baseline for Multimodal Reward Model
- Title(参考訳): BaseReward: マルチモーダルリワードモデルのための強力なベースライン
- Authors: Yi-Fan Zhang, Haihua Yang, Huanyu Zhang, Yang Shi, Zezhou Chen, Haochen Tian, Chaoyou Fu, Haotian Wang, Kai Wu, Bo Cui, Xu Wang, Jianfei Pan, Haotian Wang, Zhang Zhang, Liang Wang,
- Abstract要約: マルチモーダル報酬モデリングのための強力で効率的なベースラインである textbfBaseReward を導入する。
この結果から,BaseRewardはMM-RLHF-Reward Bench,VL-Reward Bench,Multimodal Reward Benchなどの主要なベンチマーク上で新たなSOTAを確立していることがわかった。
静的ベンチマーク以外の実用性を検証するために,BaseRewardを実世界の強化学習パイプラインに統合する。
- 参考スコア(独自算出の注目度): 34.80724853211918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of Multimodal Large Language Models (MLLMs) has made aligning them with human preferences a critical challenge. Reward Models (RMs) are a core technology for achieving this goal, but a systematic guide for building state-of-the-art Multimodal Reward Models (MRMs) is currently lacking in both academia and industry. Through exhaustive experimental analysis, this paper aims to provide a clear ``recipe'' for constructing high-performance MRMs. We systematically investigate every crucial component in the MRM development pipeline, including \textit{reward modeling paradigms} (e.g., Naive-RM, Critic-based RM, and Generative RM), \textit{reward head architecture}, \textit{training strategies}, \textit{data curation} (covering over ten multimodal and text-only preference datasets), \textit{backbone model} and \textit{model scale}, and \textit{ensemble methods}. Based on these experimental insights, we introduce \textbf{BaseReward}, a powerful and efficient baseline for multimodal reward modeling. BaseReward adopts a simple yet effective architecture, built upon a {Qwen2.5-VL} backbone, featuring an optimized two-layer reward head, and is trained on a carefully curated mixture of high-quality multimodal and text-only preference data. Our results show that BaseReward establishes a new SOTA on major benchmarks such as MM-RLHF-Reward Bench, VL-Reward Bench, and Multimodal Reward Bench, outperforming previous models. Furthermore, to validate its practical utility beyond static benchmarks, we integrate BaseReward into a real-world reinforcement learning pipeline, successfully enhancing an MLLM's performance across various perception, reasoning, and conversational tasks. This work not only delivers a top-tier MRM but, more importantly, provides the community with a clear, empirically-backed guide for developing robust reward models for the next generation of MLLMs.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の急速な進歩は、それらを人間の好みに合わせることが重要な課題となっている。
Reward Models(RM)は、この目標を達成するための中核的な技術であるが、最先端のMultimodal Reward Models(MRM)を構築するための体系的なガイドは、現在、学術と産業の両方に欠けている。
本論文は, 総合的な実験分析を通じて, 高性能MRMを構築するための明確な「レシピ」を提供することを目的とする。
MRM開発パイプラインのすべての重要なコンポーネントを体系的に調査する。例えば、 \textit{reward Modeling paradigms} (例: Naive-RM, Critic-based RM, Generative RM), \textit{reward head architecture}, \textit{training Strategy}, \textit{data curation} (10のマルチモーダルおよびテキストのみの嗜好データセットをカバー)、 \textit{backbone model} および \textit{model scale}, \textit{ensemble method} である。
これらの実験結果に基づいて,マルチモーダル報酬モデリングのための強力かつ効率的なベースラインである \textbf{BaseReward} を紹介する。
BaseRewardは、Qwen2.5-VL}のバックボーン上に構築され、最適化された2層報酬ヘッドを備え、高品質なマルチモーダルとテキストのみの嗜好データで慎重に訓練されているシンプルなアーキテクチャを採用している。
以上の結果から,BaseRewardはMM-RLHF-Reward Bench,VL-Reward Bench,Multimodal Reward Benchなどの主要なベンチマーク上で新たなSOTAを確立し,従来のモデルよりも優れていることがわかった。
さらに, 静的ベンチマーク以外の実用性を検証するために, BaseRewardを実世界の強化学習パイプラインに統合し, MLLMの性能を様々な知覚, 推論, 会話タスクにわたって向上させることに成功した。
この作業は最上位のMRMを提供するだけでなく、より重要なのは、コミュニティに、次世代MLLMの堅牢な報酬モデルを開発するための明確な実証的なガイドを提供する。
関連論文リスト
- MoIIE: Mixture of Intra- and Inter-Modality Experts for Large Vision Language Models [52.876185634349575]
我々は、モダリティ内およびモダリティ間エキスパート(MoIIE)の混合をLVLM(Large Vision-Language Models)に組み込むことを提案する。
それぞれのトークンに対して、専門家のルーティングはそのモダリティによってガイドされ、それぞれのモダリティの専門家と、モダリティ間のエキスパートの共有プールにトークンを指示する。
5.5B と 11.3B の活性化パラメータを持つ MoIIE モデルは,既存のオープンソース MoE-LLM ベースのマルチモーダルモデルの性能に適合するか,さらに上回っている。
論文 参考訳(メタデータ) (2025-08-13T13:00:05Z) - StructVRM: Aligning Multimodal Reasoning with Structured and Verifiable Reward Models [25.345348726907854]
StructVRMは、マルチモーダル推論をStructudおよびVerifiable Reward Modelsと整合させる手法である。
その中核は、きめ細かいサブクエストレベルのフィードバックを提供するために訓練されたモデルベースの検証器である。
トレーニングされたモデルSeed-StructVRMは、12の公開マルチモーダルベンチマークのうち6つの最先端のパフォーマンスと、新たにキュレートされた高微分型STEM-Benchを実現しています。
論文 参考訳(メタデータ) (2025-08-07T13:31:21Z) - R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning [22.167272219418845]
マルチモーダル・リワードモデル(MRM)は、マルチモーダル大言語モデル(MLLM)の性能向上に重要な役割を果たす。
本稿では,既存のRL手法のトレーニング損失,利点推定戦略,報酬設計を改良したStableReinforceアルゴリズムを提案する。
我々の報酬モデルであるR1-Rewardは、このデータセット上でStableReinforceアルゴリズムを使用してトレーニングされ、マルチモーダル報酬モデリングベンチマークのパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2025-05-05T17:59:50Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models [33.547353090281284]
階層的リワードモデルと呼ばれる新しい報酬モデル手法を提案する。
個々の推論ステップと連続推論ステップを、きめ細かいレベルと粗いレベルの両方で評価する。
これは多段階推論コヒーレンスの評価に優れており、特に欠陥のあるステップが後に自己回帰によって修正される場合である。
論文 参考訳(メタデータ) (2025-03-16T15:18:40Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。