論文の概要: Video-R1: Reinforcing Video Reasoning in MLLMs
- arxiv url: http://arxiv.org/abs/2503.21776v1
- Date: Thu, 27 Mar 2025 17:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:52:14.307243
- Title: Video-R1: Reinforcing Video Reasoning in MLLMs
- Title(参考訳): Video-R1:MLLMにおけるビデオ推論の強化
- Authors: Kaituo Feng, Kaixiong Gong, Bohao Li, Zonghao Guo, Yibing Wang, Tianshuo Peng, Benyou Wang, Xiangyu Yue,
- Abstract要約: Video-R1は、マルチモーダルな大言語モデル内でビデオ推論を行うためのR1パラダイムを体系的に探求する最初の試みである。
まず,T-GRPOアルゴリズムを提案する。
ビデオデータのみに頼るのではなく、高品質の画像推論データをトレーニングプロセスに組み込む。
- 参考スコア(独自算出の注目度): 27.99261687064233
- License:
- Abstract: Inspired by DeepSeek-R1's success in eliciting reasoning abilities through rule-based reinforcement learning (RL), we introduce Video-R1 as the first attempt to systematically explore the R1 paradigm for eliciting video reasoning within multimodal large language models (MLLMs). However, directly applying RL training with the GRPO algorithm to video reasoning presents two primary challenges: (i) a lack of temporal modeling for video reasoning, and (ii) the scarcity of high-quality video-reasoning data. To address these issues, we first propose the T-GRPO algorithm, which encourages models to utilize temporal information in videos for reasoning. Additionally, instead of relying solely on video data, we incorporate high-quality image-reasoning data into the training process. We have constructed two datasets: Video-R1-COT-165k for SFT cold start and Video-R1-260k for RL training, both comprising image and video data. Experimental results demonstrate that Video-R1 achieves significant improvements on video reasoning benchmarks such as VideoMMMU and VSI-Bench, as well as on general video benchmarks including MVBench and TempCompass, etc. Notably, Video-R1-7B attains a 35.8% accuracy on video spatial reasoning benchmark VSI-bench, surpassing the commercial proprietary model GPT-4o. All codes, models, data are released.
- Abstract(参考訳): ルールベース強化学習(RL)を通じて推論能力を引き出すDeepSeek-R1の成功に触発されて,多モーダル大言語モデル(MLLM)内での動画推論を実現するためのR1パラダイムを体系的に探求する最初の試みとして,Video-R1を紹介した。
しかし、GRPOアルゴリズムによるRLトレーニングをビデオ推論に直接適用すると、主な課題が2つある。
一 ビデオ推論のための時間的モデリングの欠如、及び
(II)高品質なビデオレゾネーティングデータの不足。
これらの問題に対処するため,まずT-GRPOアルゴリズムを提案する。
さらに,ビデオデータのみに頼るのではなく,高品質な画像推論データをトレーニングプロセスに組み込む。
SFTコールドスタートのためのVideo-R1-COT-165kと、RLトレーニングのためのVideo-R1-260kの2つのデータセットを構築した。
実験の結果,ビデオMMMUやVSI-Benchなどのビデオ推論ベンチマークやMVBenchやTempCompassなどの一般的なビデオベンチマークでは,ビデオR1が大幅に改善されていることがわかった。
特に、ビデオ-R1-7Bはビデオ空間推論ベンチマークVSI-benchで35.8%の精度を獲得し、商用のプロプライエタリモデルGPT-4oを上回っている。
すべてのコード、モデル、データがリリースされます。
関連論文リスト
- video-SALMONN-o1: Reasoning-enhanced Audio-visual Large Language Model [33.70837005629285]
一般的なビデオ理解タスク用に設計された,初のオープンソース推論拡張型音声視覚LLMである video-SALMONN-o1 を提案する。
我々は,ステップバイステップのソリューションを用いて,音声視覚問題に挑戦する推論集約型データセットを開発した。
また、RivaBenchは、最初の推論集約型ビデオ理解ベンチマークであり、4000以上の高品質で専門家による質問応答ペアを備えている。
論文 参考訳(メタデータ) (2025-02-17T13:07:40Z) - Sparrow: Data-Efficient Video-LLM with Text-to-Image Augmentation [98.92677830223786]
この研究は、合成データによるスケーリングを再考し、データ中心の観点からビデオLLMの開発に焦点を当てる。
本研究では,純粋なテキスト命令データからビデオライクなサンプルを合成するSparrowというデータ拡張手法を提案する。
提案手法は,多くのサンプルを用いてトレーニングしたベースラインに匹敵する,あるいは優れた性能を実現する。
論文 参考訳(メタデータ) (2024-11-29T18:59:54Z) - Video-STaR: Self-Training Enables Video Instruction Tuning with Any Supervision [24.568643475808564]
Video Self-Training with augmented Reasoning (Video-STaR)は、最初のビデオセルフトレーニングアプローチである。
Video-STaRは、ビデオインストラクションチューニングにラベル付きビデオデータセットを利用することができる。
論文 参考訳(メタデータ) (2024-07-08T17:59:42Z) - AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。
従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。
我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文 参考訳(メタデータ) (2024-06-10T17:02:08Z) - Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [118.08008540513596]
Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。
我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。
我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-31T17:59:47Z) - ARVideo: Autoregressive Pretraining for Self-Supervised Video Representation Learning [29.620990627792906]
本稿では,新たな自己教師付きビデオ表現学習フレームワークであるARVideoを提案する。
大規模な実験は、自己教師付きビデオ表現学習の効果的なパラダイムとしてARVideoを確立する。
論文 参考訳(メタデータ) (2024-05-24T02:29:03Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [57.758863967770594]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Preserve Your Own Correlation: A Noise Prior for Video Diffusion Models [52.93036326078229]
画像生成のための数十億のデータセットが市販されているが、同じスケールの同様のビデオデータを集めることは依然として難しい。
本研究では,ビデオ合成タスクの実用的な解決策として,ビデオデータを用いた事前学習画像拡散モデルの微調整について検討する。
我々のモデルであるPreserve Your Own correlation (PYoCo)は、UCF-101およびMSR-VTTベンチマークでSOTAゼロショットのテキスト・ビデオ結果が得られる。
論文 参考訳(メタデータ) (2023-05-17T17:59:16Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。