論文の概要: MVP: Enhancing Video Large Language Models via Self-supervised Masked Video Prediction
- arxiv url: http://arxiv.org/abs/2601.03781v1
- Date: Wed, 07 Jan 2026 10:25:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.472214
- Title: MVP: Enhancing Video Large Language Models via Self-supervised Masked Video Prediction
- Title(参考訳): MVP:自己監督型マスク動画予測によるビデオ大言語モデルの強化
- Authors: Xiaokun Sun, Zezhong Wu, Zewen Ding, Linli Xu,
- Abstract要約: 我々は,新しいポストトレーニング目標:マスク付きビデオ予測(MVP)を提案する。
MVPは、イベントのシーケンシャルなロジックと時間的コンテキストにモデルを参加させます。
総合的な評価は、MVPが時間的推論と因果理解を直接強化することにより、ビデオ推論能力を高めることを示している。
- 参考スコア(独自算出の注目度): 13.479167508614504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning based post-training paradigms for Video Large Language Models (VideoLLMs) have achieved significant success by optimizing for visual-semantic tasks such as captioning or VideoQA. However, while these approaches effectively enhance perception abilities, they primarily target holistic content understanding, often lacking explicit supervision for intrinsic temporal coherence and inter-frame correlations. This tendency limits the models' ability to capture intricate dynamics and fine-grained visual causality. To explicitly bridge this gap, we propose a novel post-training objective: Masked Video Prediction (MVP). By requiring the model to reconstruct a masked continuous segment from a set of challenging distractors, MVP forces the model to attend to the sequential logic and temporal context of events. To support scalable training, we introduce a scalable data synthesis pipeline capable of transforming arbitrary video corpora into MVP training samples, and further employ Group Relative Policy Optimization (GRPO) with a fine-grained reward function to enhance the model's understanding of video context and temporal properties. Comprehensive evaluations demonstrate that MVP enhances video reasoning capabilities by directly reinforcing temporal reasoning and causal understanding.
- Abstract(参考訳): ビデオ言語モデル(VideoLLMs)の強化学習に基づくポストトレーニングパラダイムは,字幕やビデオQAといった視覚的セマンティックなタスクを最適化することで大きな成功を収めた。
しかしながら、これらのアプローチは知覚能力を効果的に向上させる一方で、主に全体論的内容理解を目標としており、内在的時間的コヒーレンスとフレーム間相関の明確な監督を欠いていることが多い。
この傾向は、複雑な力学ときめ細かい視覚因果関係を捉えるモデルの能力を制限する。
そこで我々は,このギャップを明示的に埋めるために,新しい訓練対象であるMasked Video Prediction (MVP)を提案する。
MVPは、マスク付き連続セグメントを困難な障害の集合から再構築することを要求することにより、モデルのシーケンシャルロジックとイベントの時間的コンテキストへの参加を強制する。
スケーラブルなトレーニングを支援するために、任意のビデオコーパスをMVPトレーニングサンプルに変換することのできるスケーラブルなデータ合成パイプラインを導入し、さらに、ビデオコンテキストと時間特性に対するモデルの理解を高めるために、詳細な報酬関数を備えたグループ相対ポリシー最適化(GRPO)を採用する。
総合的な評価は、MVPが時間的推論と因果理解を直接強化することにより、ビデオ推論能力を高めることを示している。
関連論文リスト
- Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models [78.32948112203228]
ビデオ理解はコンピュータビジョンにおける最も困難なフロンティアである。
近年,映像理解タスクにおいて,映像多時間モデルが顕著に出現している。
Surveyは、ビデオ-LMM能力を向上するための統一的なフレームワークを研究者や実践者に提供することを目的としている。
論文 参考訳(メタデータ) (2025-10-06T17:10:44Z) - Harnessing Synthetic Preference Data for Enhancing Temporal Understanding of Video-LLMs [54.502280390499756]
我々はTimeWarpを提案し、モデルからの応答を微調整し、与えられた入力ビデオにフォーカスするよう促すために、ターゲットとなる合成時間データセットを作成する。
提案手法を既存モデルに適用すると,時間的理解ベンチマークの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2025-10-04T21:48:40Z) - Temporal Contrastive Learning for Video Temporal Reasoning in Large Vision-Language Models [44.99833362998488]
TSADP(Temporal Semantic Alignment via Dynamic Prompting)は、時間的推論能力を高める新しいフレームワークである。
VidSitu データセット上での TSADP の評価を行った。
我々の分析は、TSADPの堅牢性、効率性、実用性を強調し、ビデオ言語理解の分野における一歩を踏み出した。
論文 参考訳(メタデータ) (2024-12-16T02:37:58Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward [118.65089648651308]
本稿では,映像コンテンツのプロキシとして詳細な動画キャプションを利用する新しいフレームワークを提案する。
本稿では,DPOによる報酬の調整により,ビデオ質問応答(QA)タスクにおけるビデオLMMの性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-04-01T17:28:16Z) - Enhancing Self-supervised Video Representation Learning via Multi-level
Feature Optimization [30.670109727802494]
本稿では,学習ビデオ表現の一般化と時間的モデリング能力を改善するための多段階特徴最適化フレームワークを提案する。
実験により,グラフ制約と時間的モデリングによるマルチレベル特徴最適化は,映像理解における表現能力を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2021-08-04T17:16:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。