論文の概要: EgoSchema: A Diagnostic Benchmark for Very Long-form Video Language
Understanding
- arxiv url: http://arxiv.org/abs/2308.09126v1
- Date: Thu, 17 Aug 2023 17:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 15:47:41.957268
- Title: EgoSchema: A Diagnostic Benchmark for Very Long-form Video Language
Understanding
- Title(参考訳): EgoSchema: 非常に長いビデオ言語理解のための診断ベンチマーク
- Authors: Karttikeya Mangalam, Raiymbek Akshulakov, Jitendra Malik
- Abstract要約: Egoは、250時間以上の実際のビデオデータにまたがる、非常に長い形式のビデオ質問回答データセットである。
それぞれの質問に対して、Egoは3分間のビデオクリップに基づいて、与えられた5つのオプションの中から正しい回答を選択する必要がある。
Egoは、第2の最も近いデータセットよりも5.7倍、他のビデオ理解データセットより10倍長い時間長を持つ。
- 参考スコア(独自算出の注目度): 53.275916136138996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce EgoSchema, a very long-form video question-answering dataset,
and benchmark to evaluate long video understanding capabilities of modern
vision and language systems. Derived from Ego4D, EgoSchema consists of over
5000 human curated multiple choice question answer pairs, spanning over 250
hours of real video data, covering a very broad range of natural human activity
and behavior. For each question, EgoSchema requires the correct answer to be
selected between five given options based on a three-minute-long video clip.
While some prior works have proposed video datasets with long clip lengths, we
posit that merely the length of the video clip does not truly capture the
temporal difficulty of the video task that is being considered. To remedy this,
we introduce temporal certificate sets, a general notion for capturing the
intrinsic temporal understanding length associated with a broad range of video
understanding tasks & datasets. Based on this metric, we find EgoSchema to have
intrinsic temporal lengths over 5.7x longer than the second closest dataset and
10x to 100x longer than any other video understanding dataset. Further, our
evaluation of several current state-of-the-art video and language models shows
them to be severely lacking in long-term video understanding capabilities. Even
models with several billions of parameters achieve QA accuracy less than 33%
(random is 20%) on the EgoSchema multi-choice question answering task, while
humans achieve about 76% accuracy. We posit that \name{}{}, with its long
intrinsic temporal structures and diverse complexity, would serve as a valuable
evaluation probe for developing effective long-term video understanding systems
in the future. Data and Zero-shot model evaluation code are open-sourced for
both public and commercial use under the Ego4D license at
http://egoschema.github.io
- Abstract(参考訳): EgoSchemaは、非常に長いビデオ質問応答データセットであり、現代の視覚と言語システムの長いビデオ理解能力を評価するためのベンチマークである。
Ego4Dから派生したEgoSchemaは、5000人以上の人間のキュレートされた複数の質問応答ペアで構成され、250時間以上の実際のビデオデータにまたがる。
質問ごとに、egoschemaは3分間のビデオクリップに基づいて5つの選択肢の中から正しい答えを選択する必要がある。
いくつかの先行研究ではクリップ長の長いビデオデータセットを提案しているが、ビデオクリップの長さだけは検討中のビデオタスクの時間的難易度を実際に捉えるものではないと仮定する。
そこで,本稿では,映像理解タスクとデータセットに付随する時間的理解長を捉えるための一般的な概念であるtemporal certificate setsを紹介する。
この測定値に基づいて、EgoSchemaは第2の最も近いデータセットの5.7倍、他のビデオ理解データセットの10倍から100倍の時間長を持つ。
さらに,最新の映像モデルと言語モデルをいくつか評価した結果,長期的な映像理解能力の欠如が示唆された。
数十億のパラメータを持つモデルでさえ、EgoSchemaのマルチ選択質問応答タスクで33%未満(ランダムは20%)の精度を達成する一方、人間は約76%の精度を達成する。
我々は,その時間構造と複雑さが長い \name{}{} が,将来有効な長期ビデオ理解システムを構築する上で有用な評価プローブとなることを示唆する。
データとゼロショットモデルの評価コードは、http://egoschema.github.ioのego4dライセンスの下で、パブリックと商用の両方でオープンソース化されている。
関連論文リスト
- A Simple LLM Framework for Long-Range Video Question-Answering [66.68887077133355]
長距離ビデオ質問応答(LVQA)のための言語ベースのフレームワークであるLLoViを提案する。
我々のアプローチでは、フレーム/クリップレベルの視覚キャプタと大言語モデル(GPT-3.5, GPT-4)を併用する。
提案手法は50.3%の精度を達成し,従来のベストパフォーマンスアプローチを18.1%(絶対ゲイン)で上回った。
論文 参考訳(メタデータ) (2023-12-28T18:58:01Z) - Grounded Question-Answering in Long Egocentric Videos [46.405314250324]
長い、エゴセントリックなビデオで、個人やロボットが自分の過去の視覚的体験について尋ねることができる。
このタスクは、広範囲なビデオコンテンツ内での時間的グラウンドクエリの複雑さを含む、ユニークな課題を提示する。
提案手法は, (i) クエリグラウンドディングと応答を統一モデルに統合し, エラー伝搬を低減すること, (ii) 大規模言語モデルを用いて効率的でスケーラブルなデータ合成を行うこと, (iii) 評価のためのクローズドなQAタスクを導入することにより, これらの課題に対処する。
論文 参考訳(メタデータ) (2023-12-11T16:31:55Z) - MoVQA: A Benchmark of Versatile Question-Answering for Long-Form Movie
Understanding [69.04413943858584]
長文映画の質問応答データセットであるMoVQAを紹介する。
マルチモーダルシステムの多様な認知能力を評価するためのベンチマークも行った。
論文 参考訳(メタデータ) (2023-12-08T03:33:38Z) - LVOS: A Benchmark for Long-term Video Object Segmentation [31.76468328063721]
textbfLVOSという,合計421分間の220ビデオからなるベンチマークデータセットを提案する。
LVOSのビデオは平均1.59分で、既存のVOSデータセットのビデオの20倍の長さです。
本稿では,時間的情報を適切に活用するための3つの相補的メモリバンクからなる横動的メモリネットワーク(DDMemory)を提案する。
論文 参考訳(メタデータ) (2022-11-18T11:59:37Z) - Exploring Anchor-based Detection for Ego4D Natural Language Query [74.87656676444163]
本稿では,CVPR 2022におけるEgo4D自然言語クエリの課題について報告する。
上記の課題を解決するために,本課題の解決策を提案する。
論文 参考訳(メタデータ) (2022-08-10T14:43:37Z) - Video Question Answering with Iterative Video-Text Co-Tokenization [77.66445727743508]
本稿では,ビデオ質問応答のための新しいマルチストリームビデオエンコーダを提案する。
実験により,MSRVTT-QA,MSVD-QA,IVQAなどの複数のデータセットでモデルを評価する。
本稿では,必要なGFLOPを150-360から67に削減し,高効率なビデオ質問応答モデルを構築した。
論文 参考訳(メタデータ) (2022-08-01T15:35:38Z) - Egocentric Video-Language Pretraining [74.04740069230692]
Video-Language Pretrainingは、転送可能な表現を学習して、幅広いビデオテキストダウンストリームタスクを前進させることを目的としている。
我々は、最近リリースされたEgo4Dデータセットを利用して、3方向のEgoセントリックトレーニングを開拓しました。
3つのデータセットにわたる5つのエゴセントリックなダウンストリームタスクに対して、強いパフォーマンスを示します。
論文 参考訳(メタデータ) (2022-06-03T16:28:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。