論文の概要: Skywork-VL Reward: An Effective Reward Model for Multimodal Understanding and Reasoning
- arxiv url: http://arxiv.org/abs/2505.07263v2
- Date: Mon, 09 Jun 2025 11:46:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 21:10:46.9736
- Title: Skywork-VL Reward: An Effective Reward Model for Multimodal Understanding and Reasoning
- Title(参考訳): Skywork-VL Reward:マルチモーダル理解と推論のための効果的なリワードモデル
- Authors: Xiaokun Wang, Peiyu Wang, Jiangbo Pei, Wei Shen, Yi Peng, Yunzhuo Hao, Weijie Qiu, Ai Jian, Tianyidan Xie, Xuchen Song, Yang Liu, Yahui Zhou,
- Abstract要約: 実験により、Skywork-VL RewardはマルチモーダルVL-RewardBenchの最先端結果が得られることが示された。
この結果から,Skywork-VL Rewardは多モードアライメントのための汎用かつ信頼性の高い報酬モデルへの大きな進歩と評価された。
- 参考スコア(独自算出の注目度): 9.790628089475781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Skywork-VL Reward, a multimodal reward model that provides reward signals for both multimodal understanding and reasoning tasks. Our technical approach comprises two key components: First, we construct a large-scale multimodal preference dataset that covers a wide range of tasks and scenarios, with responses collected from both standard vision-language models (VLMs) and advanced VLM reasoners. Second, we design a reward model architecture based on Qwen2.5-VL-7B-Instruct, integrating a reward head and applying multi-stage fine-tuning using pairwise ranking loss on pairwise preference data. Experimental evaluations show that Skywork-VL Reward achieves state-of-the-art results on multimodal VL-RewardBench and exhibits competitive performance on the text-only RewardBench benchmark. Furthermore, preference data constructed based on our Skywork-VL Reward proves highly effective for training Mixed Preference Optimization (MPO), leading to significant improvements in multimodal reasoning capabilities. Our results underscore Skywork-VL Reward as a significant advancement toward general-purpose, reliable reward models for multimodal alignment. Our model has been publicly released to promote transparency and reproducibility.
- Abstract(参考訳): マルチモーダル理解と推論の両方に報酬信号を提供するマルチモーダル報酬モデルであるSkywork-VL Rewardを提案する。
まず、様々なタスクやシナリオをカバーする大規模なマルチモーダル嗜好データセットを構築し、標準視覚言語モデル(VLM)と高度なVLM推論モデルの両方から応答を収集する。
第2に、Qwen2.5-VL-7B-インストラクションに基づく報酬モデルアーキテクチャを設計し、報酬ヘッドを統合し、ペアワイズ選好データにペアランキングロスを用いた多段階微調整を適用する。
実験により、Skywork-VL RewardはマルチモーダルVL-RewardBenchの最先端結果を実現し、テキストのみのRewardBenchベンチマークで競合性能を示した。
さらに、Skywork-VL Rewardに基づいて構築された嗜好データは、Mixed Preference Optimization (MPO) のトレーニングに極めて有効であることが証明され、マルチモーダル推論能力が大幅に向上した。
この結果から,Skywork-VL Rewardは多モードアライメントのための汎用かつ信頼性の高い報酬モデルへの大きな進歩と評価された。
私たちのモデルは透明性と再現性を促進するために公開されています。
関連論文リスト
- ViLBench: A Suite for Vision-Language Process Reward Modeling [25.565912785217822]
本稿では,現在の視覚大言語モデル(VLLM)を2種類の報酬モデルとしてベンチマークする。
我々は、集中的なプロセス報酬信号を必要とするように設計された視覚言語ベンチマークViLBenchを紹介する。
本稿では,一般VLLMと報奨モデルとのギャップを埋めるための有望な経路を予め紹介する。
論文 参考訳(メタデータ) (2025-03-26T06:38:31Z) - Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems [54.4392552373835]
リワードモデル(RM)は、大規模言語モデル(LLM)のトレーニングと推論時間のスケールアップに不可欠である
本稿では,報酬モデルと検証可能な正当性信号を組み合わせた報酬システムであるエージェント報酬モデルを提案する。
我々は,既存の報奨モデルベンチマークと実世界の下流タスクのベスト・オブ・n検索に関する総合的な実験を行う。
論文 参考訳(メタデータ) (2025-02-26T17:19:12Z) - Multimodal RewardBench: Holistic Evaluation of Reward Models for Vision Language Models [82.92771279118888]
マルチモーダル報酬モデルを評価するためのエキスパートアノテートベンチマークであるMultimodal RewardBenchを紹介する。
我々のデータセットは、様々な視覚言語モデルから収集された5,211個の注釈付き(プロンプト、選択された応答、拒否された応答)三つ子からなる。
Gemini 1.5 ProやClaude 3.5 Sonnetといったトップパフォーマンスモデルでさえ、全体的な精度は72%に過ぎません。
論文 参考訳(メタデータ) (2025-02-20T01:48:13Z) - InternLM-XComposer2.5-Reward: A Simple Yet Effective Multi-Modal Reward Model [80.93387166769679]
IXC-2.5-Rewardは、大規模視覚言語モデルと人間の好みを一致させる、単純で効果的なマルチモーダル報酬モデルである。
IXC-2.5-Rewardは、最新のマルチモーダル報酬モデルベンチマークにおいて優れた結果を得るとともに、テキストのみの報酬モデルベンチマーク上での競合性能を示す。
論文 参考訳(メタデータ) (2025-01-21T18:47:32Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - HAF-RM: A Hybrid Alignment Framework for Reward Model Training [51.59246299566669]
報酬モデルトレーニングのためのハイブリッドアライメントフレームワークHaF-RMを提案する。
報酬モデルのパフォーマンスとアライメントを高めるための、原則的で効果的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-07-04T23:26:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。