論文の概要: Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning
- arxiv url: http://arxiv.org/abs/2505.03318v1
- Date: Tue, 06 May 2025 08:46:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.282057
- Title: Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning
- Title(参考訳): 強化微細調整による統一型マルチモーダル・チェーン・オブ・サート・リワードモデル
- Authors: Yibin Wang, Zhimin Li, Yuhang Zang, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang,
- Abstract要約: 本稿では,最初の統一マルチモーダルCoT型報酬モデルUnifiedReward-Thinkを提案する。
まず、GPT-4oの推論過程を抽出するために、少量の画像生成嗜好データを用いる。
次に、大規模に統一されたマルチモーダル嗜好データを作成し、様々な視覚タスクにわたってモデルの推論プロセスを導出する。
- 参考スコア(独自算出の注目度): 45.16917994431658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in multimodal Reward Models (RMs) have shown significant promise in delivering reward signals to align vision models with human preferences. However, current RMs are generally restricted to providing direct responses or engaging in shallow reasoning processes with limited depth, often leading to inaccurate reward signals. We posit that incorporating explicit long chains of thought (CoT) into the reward reasoning process can significantly strengthen their reliability and robustness. Furthermore, we believe that once RMs internalize CoT reasoning, their direct response accuracy can also be improved through implicit reasoning capabilities. To this end, this paper proposes UnifiedReward-Think, the first unified multimodal CoT-based reward model, capable of multi-dimensional, step-by-step long-chain reasoning for both visual understanding and generation reward tasks. Specifically, we adopt an exploration-driven reinforcement fine-tuning approach to elicit and incentivize the model's latent complex reasoning ability: (1) We first use a small amount of image generation preference data to distill the reasoning process of GPT-4o, which is then used for the model's cold start to learn the format and structure of CoT reasoning. (2) Subsequently, by leveraging the model's prior knowledge and generalization capabilities, we prepare large-scale unified multimodal preference data to elicit the model's reasoning process across various vision tasks. During this phase, correct reasoning outputs are retained for rejection sampling to refine the model (3) while incorrect predicted samples are finally used for Group Relative Policy Optimization (GRPO) based reinforcement fine-tuning, enabling the model to explore diverse reasoning paths and optimize for correct and robust solutions. Extensive experiments across various vision reward tasks demonstrate the superiority of our model.
- Abstract(参考訳): 近年のMultimodal Reward Models (RM) の進歩は、視覚モデルと人間の嗜好を一致させる報奨信号を提供する上で大きな可能性を示唆している。
しかし、現在のRMは直接応答や浅い推論過程に制限され、しばしば不正確な報酬信号をもたらす。
我々は,明らかに長い思考の連鎖(CoT)を報酬推論プロセスに組み込むことで,その信頼性と堅牢性を大幅に向上させることができると仮定する。
さらに,RMがCoT推論を内部化すると,その直接応答精度も暗黙的推論能力によって向上できると考えている。
そこで本研究では,視覚的理解と生成の報酬タスクのための多次元ステップバイステップ長鎖推論が可能な,最初の統合マルチモーダルCoTベースの報酬モデルUnifiedReward-Thinkを提案する。
具体的には、探索駆動型強化微調整手法を用いて、モデルの潜伏複雑推論能力を誘発し、インセンティブを与える:(1)まず、少量の画像生成選好データを用いて、GPT-4oの推論過程を抽出し、その後、モデルの冷間開始時にCoT推論の形式と構造を学習する。
2) その後,モデルの事前知識と一般化能力を活用することで,大規模に統一されたマルチモーダル嗜好データを作成し,様々な視覚課題にまたがってモデルの推論プロセスを導出する。
この段階では、正しい推論出力を拒絶サンプリングのために保持し、モデルを洗練させる((3))が、誤り予測サンプルを最終的にグループ相対政策最適化(GRPO)に基づく強化微調整に使用し、モデルが多様な推論経路を探索し、正しい、堅牢な解を最適化することを可能にする。
様々な視覚報酬タスクに対する大規模な実験は、我々のモデルの優越性を実証している。
関連論文リスト
- RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reward Reasoning Models (ReasRMs) を新たに導入する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
本モデルでは,複数のベンチマークにおいて,生成型RMの最先端あるいは近近性能を実現する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - Rethinking Bradley-Terry Models in Preference-Based Reward Modeling: Foundations, Theory, and Alternatives [14.401557416713315]
報奨モデルにおけるBradley-Terryモデル(BT)モデルの使用の基礎を再考する。
我々は,下流最適化の観点から,BTモデルが必須選択ではないことを論じる。
既成のバイナリ分類器と互換性のある,単純で簡単な上行法を提案する。
論文 参考訳(メタデータ) (2024-11-07T18:57:03Z) - Boosting the Power of Small Multimodal Reasoning Models to Match Larger Models with Self-Consistency Training [49.3242278912771]
マルチモーダル推論(multimodal reasoning)は、複数のモーダルをまたいだモデルによる質問に答える難しいタスクである。
既存のアプローチでは、言語と視覚のモダリティを2段階の推論フレームワークに組み込むことで進歩している。
MC-CoTは,複数の合理性と回答を生成し,投票プロセスを通じて最も正確な選択を行う自己整合性学習戦略である。
論文 参考訳(メタデータ) (2023-11-23T17:09:48Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。