論文の概要: ReWatch-R1: Boosting Complex Video Reasoning in Large Vision-Language Models through Agentic Data Synthesis
- arxiv url: http://arxiv.org/abs/2509.23652v2
- Date: Wed, 01 Oct 2025 15:33:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.809052
- Title: ReWatch-R1: Boosting Complex Video Reasoning in Large Vision-Language Models through Agentic Data Synthesis
- Title(参考訳): ReWatch-R1:エージェントデータ合成による大規模視覚言語モデルにおける複雑なビデオ推論の促進
- Authors: Congzhi Zhang, Zhibin Wang, Yinchao Ma, Jiawei Peng, Yihan Wang, Qiang Zhou, Jun Song, Bo Zheng,
- Abstract要約: ReWatchは、高度なビデオ推論を促進するために構築された大規模なデータセットである。
本稿では,ReWatch-Caption,ReWatch-QA,ReWatch-CoTの3つのコンポーネントを合成するための新しい多段階合成パイプラインを提案する。
実験の結果,ReWatch-R1は5つの挑戦的ビデオ推論ベンチマークで最先端の平均性能を達成できた。
- 参考スコア(独自算出の注目度): 48.22585028081581
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Reinforcement Learning with Verifiable Reward (RLVR) significantly advances image reasoning in Large Vision-Language Models (LVLMs), its application to complex video reasoning remains underdeveloped. This gap stems primarily from a critical data bottleneck: existing datasets lack the challenging, multi-hop questions and high-quality, video-grounded Chain-of-Thought (CoT) data necessary to effectively bootstrap RLVR. To address this, we introduce ReWatch, a large-scale dataset built to foster advanced video reasoning. We propose a novel multi-stage synthesis pipeline to synthesize its three components: ReWatch-Caption, ReWatch-QA, and ReWatch-CoT. A core innovation is our Multi-Agent ReAct framework for CoT synthesis, which simulates a human-like "re-watching" process to generate video-grounded reasoning traces by explicitly modeling information retrieval and verification. Building on this dataset, we develop ReWatch-R1 by post-training a strong baseline LVLM with Supervised Fine-Tuning (SFT) and our RLVR framework. This framework incorporates a novel Observation \& Reasoning (O\&R) reward mechanism that evaluates both the final answer's correctness and the reasoning's alignment with video content, directly penalizing hallucination. Our experiments show that ReWatch-R1 achieves state-of-the-art average performance on five challenging video reasoning benchmarks. Project Page: https://rewatch-r1.github.io
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Reward)は、LVLM(Large Vision-Language Models)における画像推論を大幅に進歩させるが、複雑なビデオ推論への応用はまだ未開発である。
既存のデータセットには、難解でマルチホップな質問と、RLVRを効果的にブートストラップするために必要な高品質なビデオグラウンドのChain-of-Thought(CoT)データがない。
これを解決するために,先進的なビデオ推論を促進するために構築された大規模データセットであるReWatchを紹介する。
本稿では,ReWatch-Caption,ReWatch-QA,ReWatch-CoTの3つのコンポーネントを合成するための新しい多段階合成パイプラインを提案する。
CoT合成のためのMulti-Agent ReActフレームワークは、人間のような「再監視」プロセスをシミュレートし、情報検索と検証を明示的にモデル化することで、ビデオグラウンドの推論トレースを生成する。
このデータセットに基づいて、スーパービジョンファインチューニング(SFT)とRLVRフレームワークを用いた強力なベースラインLVLMのポストトレーニングにより、ReWatch-R1を開発する。
このフレームワークは、最終回答の正しさと推論とビデオコンテンツとの整合性の両方を評価し、幻覚を直接罰する新しいオブザーバ \& Reasoning (O\&R)報酬メカニズムを組み込んでいる。
実験の結果,ReWatch-R1は5つの挑戦的ビデオ推論ベンチマークで最先端の平均性能を達成できた。
Project Page: https://rewatch-r1.github.io
関連論文リスト
- Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。
我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。
その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-06-02T17:28:26Z) - VideoRFT: Incentivizing Video Reasoning Capability in MLLMs via Reinforced Fine-Tuning [35.64831081829936]
強化微調整(RFT)は、Large Language Models(LLMs)の人間レベルの推論能力を達成する上で大きな可能性を示している。
MLLMにおけるヒューマンライクなビデオ推論能力を育成するために,RFTパラダイムを拡張した新しいアプローチであるVIDEORFTを提案する。
VideoRFT は RFT の標準的な2段階スキームに従う: チェーン・オブ・シント(CoT)アノテーションによる細調整(SFT)と、一般化を改善するための強化学習(RL)である。
論文 参考訳(メタデータ) (2025-05-18T14:14:35Z) - Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。