論文の概要: DocVideoQA: Towards Comprehensive Understanding of Document-Centric Videos through Question Answering
- arxiv url: http://arxiv.org/abs/2503.15887v1
- Date: Thu, 20 Mar 2025 06:21:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:34:05.540074
- Title: DocVideoQA: Towards Comprehensive Understanding of Document-Centric Videos through Question Answering
- Title(参考訳): DocVideoQA:質問応答によるドキュメント中心のビデオの理解に向けて
- Authors: Haochen Wang, Kai Hu, Liangcai Gao,
- Abstract要約: DocVideoQAタスクとデータセットを初めて紹介し、23のカテゴリにわたる1454のビデオを約828時間に分けた。
データセットには、手動およびGPTを介して154kの質問応答ペアがアノテートされ、モデルの理解、時間的認識、モダリティ統合機能を評価する。
提案手法は,多種多様な指導指導データを用いて一助的特徴抽出を強化し,モダリティ統合を強化するためにコントラスト学習を利用する。
- 参考スコア(独自算出の注目度): 13.466266412068475
- License:
- Abstract: Remote work and online courses have become important methods of knowledge dissemination, leading to a large number of document-based instructional videos. Unlike traditional video datasets, these videos mainly feature rich-text images and audio that are densely packed with information closely tied to the visual content, requiring advanced multimodal understanding capabilities. However, this domain remains underexplored due to dataset availability and its inherent complexity. In this paper, we introduce the DocVideoQA task and dataset for the first time, comprising 1454 videos across 23 categories with a total duration of about 828 hours. The dataset is annotated with 154k question-answer pairs generated manually and via GPT, assessing models' comprehension, temporal awareness, and modality integration capabilities. Initially, we establish a baseline using open-source MLLMs. Recognizing the challenges in modality comprehension for document-centric videos, we present DV-LLaMA, a robust video MLLM baseline. Our method enhances unimodal feature extraction with diverse instruction-tuning data and employs contrastive learning to strengthen modality integration. Through fine-tuning, the LLM is equipped with audio-visual capabilities, leading to significant improvements in document-centric video understanding. Extensive testing on the DocVideoQA dataset shows that DV-LLaMA significantly outperforms existing models. We'll release the code and dataset to facilitate future research.
- Abstract(参考訳): リモートワークやオンラインコースは、知識の普及の重要な方法となり、大量のドキュメントベースの指導ビデオが生まれている。
従来のビデオデータセットとは異なり、これらのビデオは主にリッチテキストイメージとオーディオを備えており、視覚コンテンツと密接に結びついている情報を密に詰め込んでおり、高度なマルチモーダル理解機能を必要としている。
しかし、データセットの可用性と固有の複雑さのために、このドメインはまだ探索されていない。
本稿では,23のカテゴリにまたがる1454の動画と約828時間からなるDocVideoQAタスクとデータセットを初めて紹介する。
データセットには、手動およびGPTを介して154kの質問応答ペアがアノテートされ、モデルの理解、時間的認識、モダリティ統合機能を評価する。
当初,オープンソースのMLLMを用いたベースラインを構築した。
文書中心ビデオにおけるモダリティ理解の課題を認識し,ロバストなビデオMLLMベースラインであるDV-LLaMAを提案する。
提案手法は,多種多様な指導指導データを用いて一助的特徴抽出を強化し,モダリティ統合を強化するためにコントラスト学習を利用する。
微調整により、LLMは音声視覚機能を備えており、文書中心のビデオ理解の大幅な改善につながっている。
DocVideoQAデータセットの大規模なテストは、DV-LLaMAが既存のモデルを大幅に上回っていることを示している。
将来の研究を促進するために、コードとデータセットをリリースします。
関連論文リスト
- Video Instruction Tuning With Synthetic Data [84.64519990333406]
ビデオ命令追従のための高品質な合成データセット、すなわちLLaVA-Video-178Kを作成する。
このデータセットには、詳細なキャプション、オープンエンド質問回答(QA)、複数選択QAといった重要なタスクが含まれている。
このデータセットをトレーニングすることにより、既存の視覚的インストラクションチューニングデータと組み合わせて、新しいビデオLMMであるLLaVA-Videoを導入する。
論文 参考訳(メタデータ) (2024-10-03T17:36:49Z) - MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。
MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。
ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文 参考訳(メタデータ) (2024-06-20T17:26:01Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - CinePile: A Long Video Question Answering Dataset and Benchmark [55.30860239555001]
我々は、CinePileという新しいデータセットとベンチマークを提示する。
包括的データセットは305,000の多重選択質問(MCQ)から構成されており、様々な視覚的・マルチモーダル的な側面をカバーしている。
トレーニングスプリットに関して、オープンソースのVideo-LLMを微調整し、データセットのテストスプリット上で、オープンソースとプロプライエタリなビデオ中心LLMの両方を評価しました。
論文 参考訳(メタデータ) (2024-05-14T17:59:02Z) - Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。
Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。
本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文 参考訳(メタデータ) (2023-12-29T01:56:17Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - A Unified Model for Video Understanding and Knowledge Embedding with
Heterogeneous Knowledge Graph Dataset [47.805378137676605]
マルチモーダルビデオエンティティと実りある常識関係を含む異種データセットを提案する。
実験により,映像理解の埋め込みと事実知識を組み合わせることで,コンテンツに基づく映像検索性能が向上することが示唆された。
また、VRTやVRVタスクにおいて従来のKGEベースの手法よりも優れた知識グラフの埋め込みを生成するのに役立つ。
論文 参考訳(メタデータ) (2022-11-19T09:00:45Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - VLEngagement: A Dataset of Scientific Video Lectures for Evaluating
Population-based Engagement [23.078055803229912]
ビデオ講義は、現在のデジタル時代の大衆に知識を与える主要なモダリティの1つとなっている。
科学ビデオ講義における学習者の関与を理解することを目的としたデータと研究は依然として重要なニーズである。
本稿では,VLEngagementについて紹介する。VLEngagementは,公開科学ビデオ講義から抽出したコンテンツベースおよびビデオ特有の特徴からなる,新しいデータセットである。
論文 参考訳(メタデータ) (2020-11-02T14:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。