論文の概要: Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning
- arxiv url: http://arxiv.org/abs/2505.03318v1
- Date: Tue, 06 May 2025 08:46:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.282057
- Title: Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning
- Title(参考訳): 強化微細調整による統一型マルチモーダル・チェーン・オブ・サート・リワードモデル
- Authors: Yibin Wang, Zhimin Li, Yuhang Zang, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang,
- Abstract要約: 本稿では,最初の統一マルチモーダルCoT型報酬モデルUnifiedReward-Thinkを提案する。
まず、GPT-4oの推論過程を抽出するために、少量の画像生成嗜好データを用いる。
次に、大規模に統一されたマルチモーダル嗜好データを作成し、様々な視覚タスクにわたってモデルの推論プロセスを導出する。
- 参考スコア(独自算出の注目度): 45.16917994431658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in multimodal Reward Models (RMs) have shown significant promise in delivering reward signals to align vision models with human preferences. However, current RMs are generally restricted to providing direct responses or engaging in shallow reasoning processes with limited depth, often leading to inaccurate reward signals. We posit that incorporating explicit long chains of thought (CoT) into the reward reasoning process can significantly strengthen their reliability and robustness. Furthermore, we believe that once RMs internalize CoT reasoning, their direct response accuracy can also be improved through implicit reasoning capabilities. To this end, this paper proposes UnifiedReward-Think, the first unified multimodal CoT-based reward model, capable of multi-dimensional, step-by-step long-chain reasoning for both visual understanding and generation reward tasks. Specifically, we adopt an exploration-driven reinforcement fine-tuning approach to elicit and incentivize the model's latent complex reasoning ability: (1) We first use a small amount of image generation preference data to distill the reasoning process of GPT-4o, which is then used for the model's cold start to learn the format and structure of CoT reasoning. (2) Subsequently, by leveraging the model's prior knowledge and generalization capabilities, we prepare large-scale unified multimodal preference data to elicit the model's reasoning process across various vision tasks. During this phase, correct reasoning outputs are retained for rejection sampling to refine the model (3) while incorrect predicted samples are finally used for Group Relative Policy Optimization (GRPO) based reinforcement fine-tuning, enabling the model to explore diverse reasoning paths and optimize for correct and robust solutions. Extensive experiments across various vision reward tasks demonstrate the superiority of our model.
- Abstract(参考訳): 近年のMultimodal Reward Models (RM) の進歩は、視覚モデルと人間の嗜好を一致させる報奨信号を提供する上で大きな可能性を示唆している。
しかし、現在のRMは直接応答や浅い推論過程に制限され、しばしば不正確な報酬信号をもたらす。
我々は,明らかに長い思考の連鎖(CoT)を報酬推論プロセスに組み込むことで,その信頼性と堅牢性を大幅に向上させることができると仮定する。
さらに,RMがCoT推論を内部化すると,その直接応答精度も暗黙的推論能力によって向上できると考えている。
そこで本研究では,視覚的理解と生成の報酬タスクのための多次元ステップバイステップ長鎖推論が可能な,最初の統合マルチモーダルCoTベースの報酬モデルUnifiedReward-Thinkを提案する。
具体的には、探索駆動型強化微調整手法を用いて、モデルの潜伏複雑推論能力を誘発し、インセンティブを与える:(1)まず、少量の画像生成選好データを用いて、GPT-4oの推論過程を抽出し、その後、モデルの冷間開始時にCoT推論の形式と構造を学習する。
2) その後,モデルの事前知識と一般化能力を活用することで,大規模に統一されたマルチモーダル嗜好データを作成し,様々な視覚課題にまたがってモデルの推論プロセスを導出する。
この段階では、正しい推論出力を拒絶サンプリングのために保持し、モデルを洗練させる((3))が、誤り予測サンプルを最終的にグループ相対政策最適化(GRPO)に基づく強化微調整に使用し、モデルが多様な推論経路を探索し、正しい、堅牢な解を最適化することを可能にする。
様々な視覚報酬タスクに対する大規模な実験は、我々のモデルの優越性を実証している。
関連論文リスト
- DiffuReason: Bridging Latent Reasoning and Generative Refinement for Sequential Recommendation [20.756497463882763]
逐次レコメンデーションのための統合された「シンク・テン・ディフューズ」フレームワークであるDiffuReasonを提案する。
潜時推論のための多段階思考トークン、中間表現をデノナイズするための拡散ベースの洗練、およびエンドツーエンドのグループ相対ポリシー最適化を統合している。
4つのベンチマークの実験では、DiffuReasonはさまざまなバックボーンアーキテクチャを一貫して改善している。
論文 参考訳(メタデータ) (2026-02-10T12:55:30Z) - Unified Personalized Reward Model for Vision Generation [27.496220369122494]
視覚生成のためのパーソナライズされた報酬モデルであるUnifiedReward-Flexを提案する。
我々はまず,高度閉ソースVLMからブートストラップSFTまで,構造化された高品質な推論トレースを蒸留した。
次に、慎重にキュレートされた選好ペア上で直接選好最適化(DPO)を行い、推論の忠実度と識別的アライメントをさらに強化する。
論文 参考訳(メタデータ) (2026-02-02T17:44:21Z) - Discovering Process-Outcome Credit in Multi-Step LLM Reasoning [3.584086358722852]
強化学習(RL)は、大規模言語モデル(LLM)における推論能力を高めるための強力なパラダイムとして機能する。
本稿では,連続的な報酬信号を提供するための新しいフレームワークを提案する。
本モデルでは, 予測できない, 難解な推論タスクに対して, ゼロショット転送能力を実証し, より優れた配当性を示す。
論文 参考訳(メタデータ) (2026-02-01T05:44:09Z) - Adversarial Yet Cooperative: Multi-Perspective Reasoning in Retrieved-Augmented Language Models [72.4149653187766]
本稿ではAdrialversa Reasoning RAG(ARR)というReasoner-Verifierフレームワークを提案する。
ReasonerとVerifierは、回収された証拠を推論し、プロセス認識の利点によってガイドされながら、互いの論理を批判する。
複数のベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2026-01-08T06:57:03Z) - Training Multimodal Large Reasoning Models Needs Better Thoughts: A Three-Stage Framework for Long Chain-of-Thought Synthesis and Selection [64.34737012956182]
大規模推論モデル(LRM)は、長いチェーン・オブ・ソート(CoT)推論を通して複雑な推論タスクにおいて顕著な性能を示した。
既存のマルチモーダルデータセットとCoTメソッドは、依然として限定的な推論深さ、モダリティ変換エラー、厳密な生成パイプラインに悩まされている。
マルチモーダル推論タスクに適した高品質なCoTデータを生成するための3段階合成選択フレームワークであるSynSelectを提案する。
論文 参考訳(メタデータ) (2025-12-22T02:07:20Z) - The Thinking Spectrum: An Empirical Study of Tunable Reasoning in LLMs through Model Merging [8.930191971732649]
本稿では,複数の推論ベンチマークにまたがるモデルマージ手法について,大規模な実験的検討を行った。
その結果, モデルマージは, 推論精度とトークン効率のトレードオフを校正するための, 効果的かつ制御可能な手法であることがわかった。
本研究は、この調整可能な空間を包括的に解析し、特定の推論プロファイルを持つLCMを作成するための実践的ガイドラインを提供する。
論文 参考訳(メタデータ) (2025-09-26T08:12:13Z) - Don't Overthink It: A Survey of Efficient R1-style Large Reasoning Models [49.598776427454176]
大規模共振モデル (LRM) は, 複雑なタスクの処理性能に優れていたため, 徐々に研究ホットスポットになりつつある。
しかし、これらのモデルが広く適用されたことにより、過度に考え直すという問題が徐々に顕在化していった。
モデル性能と推論能力を損なうことなく、推論経路の長さを短縮することを目的とした、様々な効率的な推論手法が提案されている。
論文 参考訳(メタデータ) (2025-08-04T06:54:31Z) - Walk Before You Run! Concise LLM Reasoning via Reinforcement Learning [10.255235456427037]
大規模言語モデル(LLM)における簡潔推論を実現するための簡易かつ効果的な2段階強化学習フレームワークを提案する。
最初の段階は、より多くのトレーニングステップを使用して、グループ相対ポリシー最適化を通じてモデルの推論能力をインセンティブ化することを目的としています。
第2段階は、より少ないトレーニングステップを使用して、簡潔さを明示的に実施し、Longth-aware Group Relative Policy Optimizationを通じて効率を向上させる。
論文 参考訳(メタデータ) (2025-05-27T13:29:51Z) - Extended Inductive Reasoning for Personalized Preference Inference from Behavioral Signals [45.019257216564036]
本稿では,大規模言語モデル(LLM)の拡張帰納的推論について検討する。
本稿では,ユーザのインタラクション履歴の行動信号から体系的な選好推定を可能にするモデルであるAlignXploreを提案する。
我々は、AlignXploreが、ドメイン内およびドメイン外のベンチマークで平均15.49%、バックボーンモデルよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2025-05-23T16:16:46Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reward Reasoning Models (ReasRMs) を新たに導入する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
本モデルでは,複数のベンチマークにおいて,生成型RMの最先端あるいは近近性能を実現する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - Rethinking Bradley-Terry Models in Preference-Based Reward Modeling: Foundations, Theory, and Alternatives [14.401557416713315]
報奨モデルにおけるBradley-Terryモデル(BT)モデルの使用の基礎を再考する。
我々は,下流最適化の観点から,BTモデルが必須選択ではないことを論じる。
既成のバイナリ分類器と互換性のある,単純で簡単な上行法を提案する。
論文 参考訳(メタデータ) (2024-11-07T18:57:03Z) - Boosting the Power of Small Multimodal Reasoning Models to Match Larger Models with Self-Consistency Training [49.3242278912771]
マルチモーダル推論(multimodal reasoning)は、複数のモーダルをまたいだモデルによる質問に答える難しいタスクである。
既存のアプローチでは、言語と視覚のモダリティを2段階の推論フレームワークに組み込むことで進歩している。
MC-CoTは,複数の合理性と回答を生成し,投票プロセスを通じて最も正確な選択を行う自己整合性学習戦略である。
論文 参考訳(メタデータ) (2023-11-23T17:09:48Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。