論文の概要: VersaVid-R1: A Versatile Video Understanding and Reasoning Model from Question Answering to Captioning Tasks
- arxiv url: http://arxiv.org/abs/2506.09079v1
- Date: Tue, 10 Jun 2025 03:57:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:01.651273
- Title: VersaVid-R1: A Versatile Video Understanding and Reasoning Model from Question Answering to Captioning Tasks
- Title(参考訳): VersaVid-R1: 質問応答からキャプションタスクへのVersatile Video Understanding and Reasoning Model
- Authors: Xinlong Chen, Yuanxing Zhang, Yushuo Guan, Bohan Zeng, Yang Shi, Sihan Yang, Pengfei Wan, Qiang Liu, Liang Wang, Tieniu Tan,
- Abstract要約: 本稿では,モデルの高度な映像理解と推論能力を高めるために設計された2つの新しいデータセットを紹介する。
我々は、Reason-Then-Respondパラダイムの下で、最初の多目的ビデオ理解および推論モデルであるVersaVid-R1を開発した。
- 参考スコア(独自算出の注目度): 44.30048178589923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in multimodal large language models have successfully extended the Reason-Then-Respond paradigm to image-based reasoning, yet video-based reasoning remains an underdeveloped frontier, primarily due to the scarcity of high-quality reasoning-oriented data and effective training methodologies. To bridge this gap, we introduce DarkEventInfer and MixVidQA, two novel datasets specifically designed to stimulate the model's advanced video understanding and reasoning abilities. DarkEventinfer presents videos with masked event segments, requiring models to infer the obscured content based on contextual video cues. MixVidQA, on the other hand, presents interleaved video sequences composed of two distinct clips, challenging models to isolate and reason about one while disregarding the other. Leveraging these carefully curated training samples together with reinforcement learning guided by diverse reward functions, we develop VersaVid-R1, the first versatile video understanding and reasoning model under the Reason-Then-Respond paradigm capable of handling multiple-choice and open-ended question answering, as well as video captioning tasks. Extensive experiments demonstrate that VersaVid-R1 significantly outperforms existing models across a broad spectrum of benchmarks, covering video general understanding, cognitive reasoning, and captioning tasks.
- Abstract(参考訳): マルチモーダルな大規模言語モデルの最近の進歩は、Reason-Then-Respondパラダイムを画像ベースの推論に拡張した。
このギャップを埋めるために、DarkEventInferとMixVidQAを導入します。
DarkEventinferは、マスクされたイベントセグメントでビデオを表示する。
一方、MixVidQAでは、2つの異なるクリップで構成されたインターリーブされたビデオシーケンスを提示し、一方を分離し、他方を無視するモデルに挑戦する。
多様な報酬関数によって指導される強化学習とともに、これら慎重に訓練されたトレーニングサンプルを活用することで、マルチチョイスとオープンエンドの質問応答を処理できるReason-Then-Respondパラダイムの下で、最初の多目的なビデオ理解と推論モデルであるVersaVid-R1を開発し、ビデオキャプションタスクも実現した。
大規模な実験により、VersaVid-R1は、ビデオの一般的な理解、認知的推論、キャプションタスクを含む、幅広いベンチマークで既存のモデルよりも大幅に優れていることが示された。
関連論文リスト
- VCRBench: Exploring Long-form Causal Reasoning Capabilities of Large Video Language Models [29.706347050700867]
ビデオベース長周期因果推論(VCRBench)という新しいベンチマークを導入する。
VCRBenchは、LVLM(Large Video Language Model)が特定の目標を達成するために必要なイベントを特定し、推論し、正しくシーケンスできるかどうかをテストする。
本稿では,ビデオに基づく因果推論を,ビデオ認識と因果推論の2つのサブタスクに分割するモジュラーアプローチである認識推論分解(RRD)を提案する。
論文 参考訳(メタデータ) (2025-05-13T11:35:58Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering [71.62961521518731]
HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。
我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
論文 参考訳(メタデータ) (2024-10-12T06:22:23Z) - Video as Conditional Graph Hierarchy for Multi-Granular Question
Answering [80.94367625007352]
ビデオはフレームシーケンスで表現されるが、視覚要素はシーケンシャルではなく、セマンティック空間において階層的である。
本稿では,異なる粒度の視覚的事実をレベルワイドに織り込む条件付きグラフ階層として,動画をモデル化することを提案する。
論文 参考訳(メタデータ) (2021-12-12T10:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。