論文の概要: StoryVideoQA: Scaling Deep Video Understanding with a Large-Scale, Multi-Genre and Auto-Generated Dataset
- arxiv url: http://arxiv.org/abs/2606.06338v1
- Date: Thu, 04 Jun 2026 16:12:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.939594
- Title: StoryVideoQA: Scaling Deep Video Understanding with a Large-Scale, Multi-Genre and Auto-Generated Dataset
- Title(参考訳): StoryVideoQA: 大規模・多世代・自動生成データセットによるディープビデオ理解のスケールアップ
- Authors: Zhengqian Wu, Zhixian Liu, Aodong Chen, Jingyang Zhang, Ruizhe Li, Hanlin Ge, Zhongyuan Wang, Chunxia Xiao, Chao Liang,
- Abstract要約: ビデオ質問応答(Video QA)は、ビデオに関する質問に答えることを目的としている。
既存のアプローチはファクトイドビデオQAに優れているが、深層ビデオ理解(DVU)に苦戦している
この課題は、固有の長距離ビデオコンテンツ、多面的質問タイプ、インスタンスレベルのストーリー要素から生じる。
- 参考スコア(独自算出の注目度): 37.79440712452179
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video question answering (VideoQA) aims to answer questions about given videos. While existing approaches excel on factoid VideoQA, they struggle with deep video understanding (DVU), which requires the comprehension of complex storylines. This challenge arises from the inherent long-range video content, multi-faceted question types, and instance-level story elements, all of which constrain the scale and diversity of manually constructed DVU datasets.These difficulties constrain the scale and diversity of manually-constructed DVU dataset. To address these, we previously introduced StoryMind to automatically construct DVU datasets with balanced fine-grained topics. Though it can generate high-quality question-answer pairs (QAs) for TV series, it suffers significant performance degradation when handling longer and more complex movies. In this paper, we further design StoryMindv2, an enhanced multi-agent collaboration framework to generate high-quality DVU datasets for both TV series and movies. By integrating a novel supervisor-guided generation mechanism and a refined multi-reviewer voting strategy, the framework is utilized to construct StoryVideoQA, the largest DVU dataset to date, featuring over 363K QAs on 393.2 hours diverse story videos including TV series (avg. 1,635 seconds) and movies (avg. 7,878 seconds). Comprehensive evaluations of 20 state-of-the-art VideoQA methods on this large-scale benchmark reveal that they cannot fully maintain long-range character associations or construct a coherent understanding of complex storylines. To bridge this gap, we propose PlotTree, a novel video understanding agent, re-organizing long-range video content into a hierarchical plot structure, enabling efficient storyline reasoning on StoryVideoQA. Project page: https://github.com/nercms-mmap/StoryVideoQA/
- Abstract(参考訳): ビデオ質問応答(Video QA)は、ビデオに関する質問に答えることを目的としている。
既存のアプローチは、ファクトイドのVideoQAよりも優れているが、複雑なストーリーラインの理解を必要とするディープ・ビデオ理解(DVU)に苦慮している。
この課題は、手動で構築したDVUデータセットのスケールと多様性を制限し、手動で構築したDVUデータセットのスケールと多様性を制限している、固有の長距離ビデオコンテンツ、多面的質問タイプ、インスタンスレベルのストーリー要素から生じる。
これらの問題に対処するため、私たちは以前StoryMindを導入し、バランスのとれたきめ細かいトピックを持つDVUデータセットを自動構築しました。
テレビシリーズの質の高い質問応答ペア(QA)を生成することができるが、より長い複雑な映画を扱う際には大きな性能低下を被る。
本稿では,テレビシリーズと映画の両方で高品質なDVUデータセットを生成するための,マルチエージェントコラボレーションフレームワークであるStoryMindv2をさらに設計する。
新たなスーパーバイザー誘導生成機構と改良されたマルチビューア投票戦略を統合することで、TVシリーズ(約1,635秒)や映画(約7,878秒)を含む393.2時間の多彩なストーリービデオのQAを含む、これまでで最大のDVUデータセットであるStoryVideoQAを構築することができる。
この大規模ベンチマークによる20種類のビデオQA手法の包括的評価により,長距離キャラクタアソシエーションの完全維持や,複雑なストーリーラインのコヒーレントな理解の構築が不可能であることが判明した。
本稿では,このギャップを埋めるために,長距離映像コンテンツを階層的なプロット構造に再構成し,ストーリービデオQA上での効率的なストーリーライン推論を可能にする,新しい映像理解エージェントであるPlotTreeを提案する。
プロジェクトページ: https://github.com/nercms-mmap/StoryVideoQA/
関連論文リスト
- ViMix-14M: A Curated Multi-Source Video-Text Dataset with Long-Form, High-Quality Captions and Crawl-Free Access [16.89068730775312]
ViMix-14Mは、約1400万対のマルチソースビデオテキストデータセットである。
ViMix-14Mは、様々なオープンビデオソースをマージして構築され、その後にデ複製と品質フィルタリングが統合されている。
マルチモーダル検索,テキスト・ツー・ビデオ生成,ビデオ質問応答タスクによるデータセットの評価を行った。
論文 参考訳(メタデータ) (2025-11-23T10:19:56Z) - VideoLucy: Deep Memory Backtracking for Long Video Understanding [102.37736560263649]
我々は、長いビデオ理解のためのディープメモリバックトラックフレームワークであるVideoLucyを提案する。
粗いものから細かいものへの人間の再コンパイルプロセスにインスパイアされたVideoLucyは、階層的なメモリ構造で、段階的に粒度が細かい。
VideoLucyは、複数の長いビデオ理解ベンチマークで最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-10-14T11:59:19Z) - Unleashing Hour-Scale Video Training for Long Video-Language Understanding [61.717205915329664]
本稿では,大規模な時間長ビデオインストラクション追従データセットであるVideoMarathonを紹介する。
このデータセットには、ビデオあたり3分から60分に及ぶ、さまざまなドメインからソースされた9,700時間の長いビデオが含まれている。
時間スケールビデオ言語モデリングのための高効率ビデオLMMであるHour-LLaVAを提案する。
論文 参考訳(メタデータ) (2025-06-05T17:59:04Z) - Frame-Level Captions for Long Video Generation with Complex Multi Scenes [52.12699618126831]
本稿では,データセットをフレームレベルでアノテートする方法を提案する。
この詳細なガイダンスはFrame-Level Attention Mechanismを使って、テキストとビデオの一致を正確に確認する。
トレーニングでは、Diffusion Forcingを使用して、モデルを柔軟に処理する能力を提供します。
論文 参考訳(メタデータ) (2025-05-27T07:39:43Z) - FriendsQA: A New Large-Scale Deep Video Understanding Dataset with Fine-grained Topic Categorization for Story Videos [27.546069308499867]
我々は,大規模DVUデータセットを自動的に生成するために,大規模言語モデルに基づくマルチエージェントコラボレーションフレームワークであるStoryMindを考案した。
データセットであるFriendsQAは、平均1,358秒のSitecom Friendsから派生したものだ。
我々は、FriendsQAデータセットを用いて、10の最先端ビデオQAモデルに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2024-12-22T13:55:44Z) - MovieBench: A Hierarchical Movie Level Dataset for Long Video Generation [62.85764872989189]
長いビデオ生成モデルの分析、評価、トレーニングに適したデータセットは公開されていない。
The MovieBench: A Hierarchical Movie-Level dataset for Long Video Generation。
データセットは公開され、継続的に維持され、長いビデオ生成の分野を前進させることを目的としている。
論文 参考訳(メタデータ) (2024-11-22T10:25:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。