論文の概要: EgoSchema: A Diagnostic Benchmark for Very Long-form Video Language
Understanding
- arxiv url: http://arxiv.org/abs/2308.09126v1
- Date: Thu, 17 Aug 2023 17:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 15:47:41.957268
- Title: EgoSchema: A Diagnostic Benchmark for Very Long-form Video Language
Understanding
- Title(参考訳): EgoSchema: 非常に長いビデオ言語理解のための診断ベンチマーク
- Authors: Karttikeya Mangalam, Raiymbek Akshulakov, Jitendra Malik
- Abstract要約: Egoは、250時間以上の実際のビデオデータにまたがる、非常に長い形式のビデオ質問回答データセットである。
それぞれの質問に対して、Egoは3分間のビデオクリップに基づいて、与えられた5つのオプションの中から正しい回答を選択する必要がある。
Egoは、第2の最も近いデータセットよりも5.7倍、他のビデオ理解データセットより10倍長い時間長を持つ。
- 参考スコア(独自算出の注目度): 53.275916136138996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce EgoSchema, a very long-form video question-answering dataset,
and benchmark to evaluate long video understanding capabilities of modern
vision and language systems. Derived from Ego4D, EgoSchema consists of over
5000 human curated multiple choice question answer pairs, spanning over 250
hours of real video data, covering a very broad range of natural human activity
and behavior. For each question, EgoSchema requires the correct answer to be
selected between five given options based on a three-minute-long video clip.
While some prior works have proposed video datasets with long clip lengths, we
posit that merely the length of the video clip does not truly capture the
temporal difficulty of the video task that is being considered. To remedy this,
we introduce temporal certificate sets, a general notion for capturing the
intrinsic temporal understanding length associated with a broad range of video
understanding tasks & datasets. Based on this metric, we find EgoSchema to have
intrinsic temporal lengths over 5.7x longer than the second closest dataset and
10x to 100x longer than any other video understanding dataset. Further, our
evaluation of several current state-of-the-art video and language models shows
them to be severely lacking in long-term video understanding capabilities. Even
models with several billions of parameters achieve QA accuracy less than 33%
(random is 20%) on the EgoSchema multi-choice question answering task, while
humans achieve about 76% accuracy. We posit that \name{}{}, with its long
intrinsic temporal structures and diverse complexity, would serve as a valuable
evaluation probe for developing effective long-term video understanding systems
in the future. Data and Zero-shot model evaluation code are open-sourced for
both public and commercial use under the Ego4D license at
http://egoschema.github.io
- Abstract(参考訳): EgoSchemaは、非常に長いビデオ質問応答データセットであり、現代の視覚と言語システムの長いビデオ理解能力を評価するためのベンチマークである。
Ego4Dから派生したEgoSchemaは、5000人以上の人間のキュレートされた複数の質問応答ペアで構成され、250時間以上の実際のビデオデータにまたがる。
質問ごとに、egoschemaは3分間のビデオクリップに基づいて5つの選択肢の中から正しい答えを選択する必要がある。
いくつかの先行研究ではクリップ長の長いビデオデータセットを提案しているが、ビデオクリップの長さだけは検討中のビデオタスクの時間的難易度を実際に捉えるものではないと仮定する。
そこで,本稿では,映像理解タスクとデータセットに付随する時間的理解長を捉えるための一般的な概念であるtemporal certificate setsを紹介する。
この測定値に基づいて、EgoSchemaは第2の最も近いデータセットの5.7倍、他のビデオ理解データセットの10倍から100倍の時間長を持つ。
さらに,最新の映像モデルと言語モデルをいくつか評価した結果,長期的な映像理解能力の欠如が示唆された。
数十億のパラメータを持つモデルでさえ、EgoSchemaのマルチ選択質問応答タスクで33%未満(ランダムは20%)の精度を達成する一方、人間は約76%の精度を達成する。
我々は,その時間構造と複雑さが長い \name{}{} が,将来有効な長期ビデオ理解システムを構築する上で有用な評価プローブとなることを示唆する。
データとゼロショットモデルの評価コードは、http://egoschema.github.ioのego4dライセンスの下で、パブリックと商用の両方でオープンソース化されている。
関連論文リスト
- HourVideo: 1-Hour Video-Language Understanding [34.90495038962066]
HourVideoは、時間単位のビデオ言語理解のためのベンチマークデータセットである。
HourVideoには、20分から120分の間、手動で編集されたエゴセントリックなビデオが500本含まれている。
ベンチマークの結果、GPT-4やLLaVA-NeXTを含むマルチモーダルモデルでは、ランダムな確率よりも限界的な改善が得られた。
論文 参考訳(メタデータ) (2024-11-07T18:59:16Z) - TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - MM-Ego: Towards Building Egocentric Multimodal LLMs [72.47344411599322]
本研究の目的は,エゴセントリックな映像理解のためのマルチモーダル基盤モデルの構築である。
我々は,人間による注釈付きデータに基づいて,30秒から1時間に及ぶエゴセントリックビデオの高品質なQAサンプルを効率よく生成するデータエンジンを開発した。
我々は、629の動画と7,026の質問でエゴセントリックなQAベンチマークを作成し、様々な長さのビデオで視覚的詳細を認識・記憶するモデルの能力を評価する。
論文 参考訳(メタデータ) (2024-10-09T17:59:59Z) - LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding [41.9477837230283]
LongVideoBenchは質問に答えるベンチマークで、最大1時間までビデオ言語によるインターリーブされたインプットを特徴としている。
私たちのベンチマークには、さまざまなテーマにまたがるサブタイトルを持つ3,763種類のウェブコレクトビデオが含まれています。
我々は、推論を参照する新しいビデオ質問応答タスクを定式化する。
論文 参考訳(メタデータ) (2024-07-22T16:00:55Z) - Goldfish: Vision-Language Understanding of Arbitrarily Long Videos [51.547065479762715]
任意の長さのビデオの解釈に適した手法を提案する。
また,TVQA-longベンチマークを導入し,視覚とテキストコンテンツの両方に疑問を呈する長編ビデオの理解におけるモデルの能力を評価する。
以上の結果から,本モデルでは長大・短大双方の理解が大幅に改善されていることが示唆された。
論文 参考訳(メタデータ) (2024-07-17T15:59:32Z) - LVBench: An Extreme Long Video Understanding Benchmark [38.839913137854104]
LVBenchは長いビデオの理解に特化して設計されたベンチマークである。
我々のデータセットは、公開されているビデオからなり、長いビデオの理解と情報抽出を目的とした様々なタスクを包含する。
論文 参考訳(メタデータ) (2024-06-12T09:36:52Z) - CinePile: A Long Video Question Answering Dataset and Benchmark [55.30860239555001]
我々は、CinePileという新しいデータセットとベンチマークを提示する。
包括的データセットは305,000の多重選択質問(MCQ)から構成されており、様々な視覚的・マルチモーダル的な側面をカバーしている。
トレーニングスプリットに関して、オープンソースのVideo-LLMを微調整し、データセットのテストスプリット上で、オープンソースとプロプライエタリなビデオ中心LLMの両方を評価しました。
論文 参考訳(メタデータ) (2024-05-14T17:59:02Z) - Koala: Key frame-conditioned long video-LLM [70.52369588364992]
我々は、より長いビデオに一般化するために、事前訓練されたvLLMに適応するための軽量で自己監督型の長ビデオLLM(Koala)を提案する。
提案手法は,全タスクの絶対精度を3~6%向上させる。
意外なことに、我々のアプローチは、訓練済みのvLLMが長いビデオを理解するのに役立つだけでなく、短期的な行動認識における精度を向上させることを実証的に示す。
論文 参考訳(メタデータ) (2024-04-05T18:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。