論文の概要: VR-Thinker: Boosting Video Reward Models through Thinking-with-Image Reasoning
- arxiv url: http://arxiv.org/abs/2510.10518v3
- Date: Wed, 15 Oct 2025 03:25:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 13:11:49.466183
- Title: VR-Thinker: Boosting Video Reward Models through Thinking-with-Image Reasoning
- Title(参考訳): VR-Thinker:思考と画像の推論によるビデオリワードモデルの構築
- Authors: Qunzhong Wang, Jie Liu, Jiajun Liang, Yilei Jiang, Yuanxing Zhang, Jinyuan Chen, Yaozhi Zheng, Xintao Wang, Pengfei Wan, Xiangyu Yue, Jiaheng Liu,
- Abstract要約: マルチモーダル報酬モデル(RM)は、視覚生成モデルのトレーニング後を大幅に改善した。
VideoReward Thinker (VR-Thinker)は、RMに視覚的推論操作と視覚的メモリウィンドウを備えた思考とイメージのフレームワークである。
提案手法は,映像選好ベンチマークにおいて,オープンソースモデル間で最先端の精度を提供する。
- 参考スコア(独自算出の注目度): 49.610569478718226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in multimodal reward models (RMs) have substantially improved post-training for visual generative models. However, current RMs face inherent limitations: (1) visual inputs consume large context budgets, forcing fewer frames and causing loss of fine-grained details; and (2) all visual information is packed into the initial prompt, exacerbating hallucination and forgetting during chain-of-thought reasoning. To overcome these issues, we introduce VideoReward Thinker (VR-Thinker), a thinking-with-image framework that equips the RM with visual reasoning operations (e.g., select frame) and a configurable visual memory window. This allows the RM to actively acquire and update visual evidence within context limits, improving reasoning fidelity and reliability. We activate visual reasoning via a reinforcement fine-tuning pipeline: (i) Cold Start with curated visual chain-of-thought data to distill basic reasoning skills and operation formatting; (ii) select samples whose per-dimension and overall judgments are all correct, then conduct Rejection sampling Fine-Tuning on these high-quality traces to further enhance reasoning; and (iii) apply Group Relative Policy Optimization (GRPO) to strengthen reasoning. Our approach delivers state-of-the-art accuracy among open-source models on video preference benchmarks, especially for longer videos: a 7B VR-Thinker achieves 80.5% on VideoGen Reward, 82.3% on GenAI-Bench, and 75.6% on MJ-Bench-Video. These results validate the effectiveness and promise of thinking-with-image multimodal reward modeling.
- Abstract(参考訳): マルチモーダル報酬モデル(RM)の最近の進歩は、視覚的生成モデルのためのポストトレーニングを大幅に改善した。
しかしながら、現在のRMは、(1)視覚入力は、大きなコンテキスト予算を消費し、フレームを減らし、きめ細かな細部を損なうこと、(2)視覚情報は初期プロンプトに詰め込まれ、幻覚が悪化し、思考の連鎖的推論中に忘れられることなど、固有の制約に直面している。
これらの問題を克服するために、RMに視覚推論操作(例えば、選択フレーム)と設定可能な視覚記憶ウィンドウを備えた思考とイメージのフレームワークであるVideoReward Thinker (VR-Thinker)を紹介した。
これによりRMは、コンテキスト制限内で視覚的証拠を積極的に取得し、更新することができ、推論の忠実さと信頼性が向上する。
我々は強化微調整パイプラインを介して視覚的推論を活性化する。
一 基本的推論技術及び運用書式を蒸留するための視覚的連鎖データによる冷間開始
二 寸法及び全体判定がすべて正しい試料を選別し、次いで、これらの高品質な痕跡を微調整して推論をさらに強化する。
三 グループ相対政策最適化(GRPO)を適用して推論を強化すること。
当社のアプローチでは,特にビデオ選好ベンチマークにおいて,オープンソースモデル間で最先端の精度を実現している。7B VR-ThinkerはVideoGen Rewardで80.5%,GenAI-Benchで82.3%,MJ-Bench-Videoで75.6%を達成している。
これらの結果は、マルチモーダル報酬モデルによる思考の有効性と可能性を検証した。
関連論文リスト
- VisRAG 2.0: Evidence-Guided Multi-Image Reasoning in Visual Retrieval-Augmented Generation [64.82775032985485]
視覚検索強化世代(VRAG)は視覚言語モデル(VLM)を外的視覚知識で拡張し、基礎推論を行い幻覚を減らす。
しかし、現在のVRAGシステムは、複数の画像に対して確実な認識と証拠の統合に失敗し、根拠の弱さと誤った結論に繋がることが多い。
EVisRAGは,エビデンス誘導型マルチイメージで推論を学習し,この問題に対処するエンド・ツー・エンドのフレームワークである。
論文 参考訳(メタデータ) (2025-10-10T13:34:23Z) - BLINK-Twice: You see, but do you observe? A Reasoning Benchmark on Visual Perception [67.89135437537179]
我々は視覚中心の推論ベンチマークであるBLINK-Twiceを紹介した。
外部の知識に頼るのではなく、私たちのタスクは視覚的コンテンツのみから推論するモデルを必要とします。
事前の知覚ベンチマークと比較すると、浅い知覚を超越し、きめ細かい観察と分析的推論を必要とする。
論文 参考訳(メタデータ) (2025-10-10T13:14:13Z) - VidBridge-R1: Bridging QA and Captioning for RL-based Video Understanding Models with Intermediate Proxy Tasks [41.90092896728809]
VidBridge-R1は、"Reason-Then-Respond"パラダイムの競合を効果的に橋渡しする、世界初の多目的ビデオ推論モデルである。
大規模な実験により、VidBridge-R1は1つのモデルにおいて、QAとキャプションの両方で大きなパフォーマンス向上を達成することが示された。
論文 参考訳(メタデータ) (2025-06-10T03:57:53Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning [53.790502697674754]
本稿では、画像入力を重要な推論段階に移行する戦略であるTake-Allong Visual Conditioning (TVC)を提案する。
TVCは、推論を通して視覚的なコンポーネントへの注意を維持するのに役立つ。
提案手法は,5つの数学的推論ベンチマークにおいて,最先端の性能を平均で達成する。
論文 参考訳(メタデータ) (2025-03-17T16:45:12Z) - video-SALMONN-o1: Reasoning-enhanced Audio-visual Large Language Model [33.70837005629285]
一般的なビデオ理解タスク用に設計された,初のオープンソース推論拡張型音声視覚LLMである video-SALMONN-o1 を提案する。
我々は,ステップバイステップのソリューションを用いて,音声視覚問題に挑戦する推論集約型データセットを開発した。
また、RivaBenchは、最初の推論集約型ビデオ理解ベンチマークであり、4000以上の高品質で専門家による質問応答ペアを備えている。
論文 参考訳(メタデータ) (2025-02-17T13:07:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。