論文の概要: Think, then Score: Decoupled Reasoning and Scoring for Video Reward Modeling
- arxiv url: http://arxiv.org/abs/2605.05922v1
- Date: Thu, 07 May 2026 09:30:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.666446
- Title: Think, then Score: Decoupled Reasoning and Scoring for Video Reward Modeling
- Title(参考訳): ビデオリワードモデリングのための疎結合推論とスコーリング
- Authors: Yuan Wang, Ouxiang Li, Yulong Xu, Borui Liao, Jiajun Liang, Jinghan Li, Meng Wang, Xintao Wang, Pengfei Wang, Kuien Liu, Xiang Wang,
- Abstract要約: ビデオ報酬モデルは、さまざまなシナリオで人間の好みに合わせて正確な報酬を予測する必要がある。
textitDiscriminative RMs regress rewards direct on features by multimodal large language model without explicit reasoning。
トレーニング効率が高く一般化可能なビデオ報酬モデルであるDeScoreを紹介する。
- 参考スコア(独自算出の注目度): 31.53416530533349
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in generative video models are increasingly driven by post-training and test-time scaling, both of which critically depend on the quality of video reward models (RMs). An ideal reward model should predict accurate rewards that align with human preferences across diverse scenarios. However, existing paradigms face a fundamental dilemma: \textit{Discriminative RMs} regress rewards directly on features extracted by multimodal large language models (MLLMs) without explicit reasoning, making them prone to shortcut learning and heavily reliant on massive data scaling for generalization. In contrast, \textit{Generative RMs} with Chain-of-Thought (CoT) reasoning exhibit superior interpretability and generalization potential, as they leverage fine-grained semantic supervision to internalize the rationales behind human preferences. However, they suffer from inherent optimization bottlenecks due to the coupling of reasoning and scoring within a single autoregressive inference chain. To harness the generalization benefits of CoT reasoning while mitigating the training instability of coupled reasoning and scoring, we introduce DeScore, a training-efficient and generalizable video reward model. DeScore employs a decoupled ``think-then-score'' paradigm: an MLLM first generates an explicit CoT, followed by a dedicated discriminative scoring module consisting of a learnable query token and a regression head that predicts the final reward. DeScore is optimized via a two-stage framework: (1) a discriminative cold start incorporating a random mask mechanism to ensure robust scoring capabilities, and (2) a dual-objective reinforcement learning stage that independently refines CoT reasoning quality and calibrates the final reward, ensuring that higher-quality reasoning directly translates to superior model performance.
- Abstract(参考訳): 近年の再生ビデオモデルの進歩は、ビデオ報酬モデル(RM)の品質に大きく依存するポストトレーニングとテストタイムスケーリングによってますます加速している。
理想的な報酬モデルでは、さまざまなシナリオで人間の好みに合わせて正確な報酬を予測する必要があります。
しかし、既存のパラダイムは基本的なジレンマに直面している: \textit{Discriminative RMs} regress rewards direct on features by multimodal large language model (MLLMs) without explicit reasoning, it tend to shortcut learning and very relyant on massive data scaling for generalization。
対照的に、Chain-of-Thought (CoT) 推論を用いた \textit{Generative RMs} は、人間の嗜好の背景にある理論的根拠を内在化するために、粒度の細かい意味的監督を利用するため、優れた解釈可能性と一般化可能性を示す。
しかし、それらは1つの自己回帰推論チェーン内での推論とスコアの結合によって、本質的に最適化のボトルネックに悩まされる。
協調推論とスコアリングの訓練不安定性を緩和しつつ、CoT推論の一般化の利点を活用するために、トレーニング効率が高く一般化可能なビデオ報酬モデルであるDeScoreを導入する。
MLLMはまず明示的なCoTを生成し、続いて学習可能なクエリトークンと最終的な報酬を予測する回帰ヘッドからなる専用の識別的スコアリングモジュールを生成する。
DeScoreは,(1)ロバストなスコアリング能力を確保するためにランダムマスク機構を組み込んだ差別的なコールドスタート,(2)CoT推論品質を独立に洗練し,最終的な報酬を校正し,高品質な推論がモデル性能に直接変換されることを保証する二重目的強化学習段階,という2段階の枠組みで最適化されている。
関連論文リスト
- RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time [51.256131853751754]
本研究では,多次元的批判を明示的に生成するために報酬モデルを教えることで,受動的評価器から能動的最適化ツールへ変換することを示す。
提案手法では, 嗜好データから高品質な論理を復元する原理的フレームワークであるpreference-Anchored Rationalization (PARROT) を導入する。
その結果、RationalRewards (8B) は、オープンソース報酬モデル間の最先端の好み予測を実現する。
論文 参考訳(メタデータ) (2026-04-13T15:38:09Z) - Reason Only When Needed: Efficient Generative Reward Modeling via Model-Internal Uncertainty [33.04999074297977]
E-GRMはモデル内不確実性に基づく効率的な生成報酬モデリングフレームワークである。
E-GRMは推論コストを大幅に削減し,解答精度を継続的に向上することを示した。
論文 参考訳(メタデータ) (2026-04-11T07:35:08Z) - Answer-Consistent Chain-of-thought Reinforcement Learning For Multi-modal Large Langauge Models [33.398631680508814]
本稿では,GRPOアルゴリズムを補助的整合性チェックで修正するAnswer-Consistent Reinforcement Learningを提案する。
我々は、オリジナルとポストシャッフルの両方の回答が一致して正しい場合にのみ高い報酬を与える一貫性検証報酬を設計する。
我々は、ACREを挑戦的なビデオ推論ベンチマークとマルチモーダル数学推論ベンチマークで評価し、平均2.2%と1.5%の改善を達成した。
論文 参考訳(メタデータ) (2025-10-11T08:32:52Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。