論文の概要: CinePile: A Long Video Question Answering Dataset and Benchmark
- arxiv url: http://arxiv.org/abs/2405.08813v2
- Date: Fri, 14 Jun 2024 17:59:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 18:33:01.377942
- Title: CinePile: A Long Video Question Answering Dataset and Benchmark
- Title(参考訳): CinePile: 長いビデオ質問によるデータセットとベンチマーク
- Authors: Ruchit Rawal, Khalid Saifullah, Ronen Basri, David Jacobs, Gowthami Somepalli, Tom Goldstein,
- Abstract要約: 現在のロングフォームビデオ理解のためのデータセットは、真のロングフォーム理解の課題を提供するのに足りていないことが多い。
我々は、CinePileという新しいデータセットとベンチマークを提示する。
- 参考スコア(独自算出の注目度): 58.08209212057164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current datasets for long-form video understanding often fall short of providing genuine long-form comprehension challenges, as many tasks derived from these datasets can be successfully tackled by analyzing just one or a few random frames from a video. To address this issue, we present a novel dataset and benchmark, CinePile, specifically designed for authentic long-form video understanding. This paper details our innovative approach for creating a question-answer dataset, utilizing advanced LLMs with human-in-the-loop and building upon human-generated raw data. Our comprehensive dataset comprises 305,000 multiple-choice questions (MCQs), covering various visual and multimodal aspects, including temporal comprehension, understanding human-object interactions, and reasoning about events or actions within a scene. Additionally, we evaluate recent video-centric LLMs, both open-source and proprietary, on the test split of our dataset. The findings reveal that even state-of-the-art video-centric LLMs significantly lag behind human performance in these tasks, highlighting the complexity and challenge inherent in video understanding. The dataset is available at https://hf.co/datasets/tomg-group-umd/cinepile
- Abstract(参考訳): ビデオから1つか数つのランダムフレームを分析することで、これらのデータセットから派生した多くのタスクにうまく取り組むことができる。
この問題に対処するために、我々はCinePileという新しいデータセットとベンチマークを提示する。
本稿では,質問応答データセット作成における革新的アプローチについて詳述し,より進んだLCMを人為的ループで活用し,人為的生データに基づいて構築する方法について述べる。
包括的データセットは、時間的理解、人間と物体の相互作用の理解、シーン内の出来事や行動の推論など、視覚的およびマルチモーダルな側面をカバーする305,000の多重選択質問(MCQ)から構成される。
さらに、我々のデータセットのテスト分割に基づいて、最近のビデオ中心のLCM(オープンソースとプロプライエタリの両方)を評価した。
その結果、現在最先端のビデオ中心のLLMでさえ、これらのタスクにおいて人間のパフォーマンスが著しく遅れており、ビデオ理解に固有の複雑さと課題が浮かび上がっていることがわかった。
データセットはhttps://hf.co/datasets/tomg-group-umd/cinepileで利用可能である。
関連論文リスト
- VideoCoT: A Video Chain-of-Thought Dataset with Active Annotation Tool [21.182745175241894]
我々は,能動的学習パラダイムの下で,機械と人間の専門家を組み合わせた自動アノテーションツールを開発した。
MLLMの複雑な推論能力を最大化するために,CoTを利用して収集したデータセットに基づくベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-07T13:10:23Z) - Short Film Dataset (SFD): A Benchmark for Story-Level Video Understanding [30.06191555110948]
本研究では,1078本のアマチュア映画を公開するショートフィルムデータセットを提案する。
本実験は,SFD課題を解決するための長期的推論の必要性を強調した。
視覚データのみを使用する場合と比較して、現在のモデルの性能は大幅に低下する。
論文 参考訳(メタデータ) (2024-06-14T17:54:54Z) - LVBench: An Extreme Long Video Understanding Benchmark [37.22510741049044]
LVBenchは長いビデオの理解に特化して設計されたベンチマークである。
我々のデータセットは、公開されているビデオからなり、長いビデオの理解と情報抽出を目的とした様々なタスクを包含する。
論文 参考訳(メタデータ) (2024-06-12T09:36:52Z) - Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。
我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。
我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文 参考訳(メタデータ) (2024-04-04T11:59:06Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - Grounded Question-Answering in Long Egocentric Videos [39.281013854331285]
長い、エゴセントリックなビデオで、個人やロボットが自分の過去の視覚的体験について尋ねることができる。
このタスクは、広範囲なビデオコンテンツ内での時間的グラウンドクエリの複雑さを含む、ユニークな課題を提示する。
提案手法は,クエリグラウンディングと応答を統一モデルに統合することにより,誤りの伝播を低減することで,これらの課題に対処する。
論文 参考訳(メタデータ) (2023-12-11T16:31:55Z) - MoVQA: A Benchmark of Versatile Question-Answering for Long-Form Movie
Understanding [69.04413943858584]
長文映画の質問応答データセットであるMoVQAを紹介する。
マルチモーダルシステムの多様な認知能力を評価するためのベンチマークも行った。
論文 参考訳(メタデータ) (2023-12-08T03:33:38Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - VIOLIN: A Large-Scale Dataset for Video-and-Language Inference [103.7457132841367]
ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。
サブタイトルを前提としたビデオクリップと、そのビデオコンテンツに基づいて自然言語仮説とをペアリングすると、モデルは、その仮説が所定のビデオクリップに関連付けられているか、矛盾しているかを推測する必要がある。
このタスクには、Violin(VIdeO-and-Language Inference)という名の新しい大規模データセットが導入された。
論文 参考訳(メタデータ) (2020-03-25T20:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。