Fugu-MT 論文翻訳(概要): EgoSchema: A Diagnostic Benchmark for Very Long-form Video Language Understanding

論文の概要: EgoSchema: A Diagnostic Benchmark for Very Long-form Video Language Understanding

arxiv url: http://arxiv.org/abs/2308.09126v1
Date: Thu, 17 Aug 2023 17:59:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-21 15:47:41.957268
Title: EgoSchema: A Diagnostic Benchmark for Very Long-form Video Language Understanding
Title（参考訳）: EgoSchema: 非常に長いビデオ言語理解のための診断ベンチマーク
Authors: Karttikeya Mangalam, Raiymbek Akshulakov, Jitendra Malik
Abstract要約: Egoは、250時間以上の実際のビデオデータにまたがる、非常に長い形式のビデオ質問回答データセットである。それぞれの質問に対して、Egoは3分間のビデオクリップに基づいて、与えられた5つのオプションの中から正しい回答を選択する必要がある。 Egoは、第2の最も近いデータセットよりも5.7倍、他のビデオ理解データセットより10倍長い時間長を持つ。
参考スコア（独自算出の注目度）: 53.275916136138996
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce EgoSchema, a very long-form video question-answering dataset, and benchmark to evaluate long video understanding capabilities of modern vision and language systems. Derived from Ego4D, EgoSchema consists of over 5000 human curated multiple choice question answer pairs, spanning over 250 hours of real video data, covering a very broad range of natural human activity and behavior. For each question, EgoSchema requires the correct answer to be selected between five given options based on a three-minute-long video clip. While some prior works have proposed video datasets with long clip lengths, we posit that merely the length of the video clip does not truly capture the temporal difficulty of the video task that is being considered. To remedy this, we introduce temporal certificate sets, a general notion for capturing the intrinsic temporal understanding length associated with a broad range of video understanding tasks & datasets. Based on this metric, we find EgoSchema to have intrinsic temporal lengths over 5.7x longer than the second closest dataset and 10x to 100x longer than any other video understanding dataset. Further, our evaluation of several current state-of-the-art video and language models shows them to be severely lacking in long-term video understanding capabilities. Even models with several billions of parameters achieve QA accuracy less than 33% (random is 20%) on the EgoSchema multi-choice question answering task, while humans achieve about 76% accuracy. We posit that \name{}{}, with its long intrinsic temporal structures and diverse complexity, would serve as a valuable evaluation probe for developing effective long-term video understanding systems in the future. Data and Zero-shot model evaluation code are open-sourced for both public and commercial use under the Ego4D license at http://egoschema.github.io
Abstract（参考訳）: EgoSchemaは、非常に長いビデオ質問応答データセットであり、現代の視覚と言語システムの長いビデオ理解能力を評価するためのベンチマークである。 Ego4Dから派生したEgoSchemaは、5000人以上の人間のキュレートされた複数の質問応答ペアで構成され、250時間以上の実際のビデオデータにまたがる。質問ごとに、egoschemaは3分間のビデオクリップに基づいて5つの選択肢の中から正しい答えを選択する必要がある。いくつかの先行研究ではクリップ長の長いビデオデータセットを提案しているが、ビデオクリップの長さだけは検討中のビデオタスクの時間的難易度を実際に捉えるものではないと仮定する。そこで,本稿では,映像理解タスクとデータセットに付随する時間的理解長を捉えるための一般的な概念であるtemporal certificate setsを紹介する。この測定値に基づいて、EgoSchemaは第2の最も近いデータセットの5.7倍、他のビデオ理解データセットの10倍から100倍の時間長を持つ。さらに,最新の映像モデルと言語モデルをいくつか評価した結果,長期的な映像理解能力の欠如が示唆された。数十億のパラメータを持つモデルでさえ、EgoSchemaのマルチ選択質問応答タスクで33%未満(ランダムは20%)の精度を達成する一方、人間は約76%の精度を達成する。我々は,その時間構造と複雑さが長い \name{}{} が,将来有効な長期ビデオ理解システムを構築する上で有用な評価プローブとなることを示唆する。データとゼロショットモデルの評価コードは、http://egoschema.github.ioのego4dライセンスの下で、パブリックと商用の両方でオープンソース化されている。

関連論文リスト

Vidi: Large Multimodal Models for Video Understanding and Editing [33.56852569192024]
本稿では,LMM(Large Multimodal Models)のファミリであるVidiを紹介する。最初のリリースでは、与えられたテキストクエリに対応する入力ビデオ内の時間範囲を特定する、時間的検索に焦点を当てている。 VUE-TRベンチマークも提案する。
論文参考訳（メタデータ） (2025-04-22T08:04:45Z)
Omnia de EgoTempo: Benchmarking Temporal Understanding of Multi-Modal LLMs in Egocentric Videos [51.8995932557911]
EgoTempoは、エゴセントリックドメインにおける時間的理解を評価するために設計されたデータセットである。本稿では,ベンチマークにおける最先端のマルチモーダル言語モデル (MLLM) が,テキストやフレームのみを入力として,驚くほど高い性能を実現していることを示す。 EgoTempoがこの分野の新たな研究を触媒し、時間的ダイナミクスの複雑さをよりよく捉えたモデルに刺激を与えることを期待している。
論文参考訳（メタデータ） (2025-03-17T18:50:36Z)
X-LeBench: A Benchmark for Extremely Long Egocentric Video Understanding [25.85614872348223]
ロングフォームなエゴセントリックなビデオ理解は、コンテキスト情報と長期的な人間の行動に関する洞察を提供する。既存のベンチマークデータセットは、主に、単一、短調のビデオ、あるいは適度に長いビデオに焦点を当てている。 X-LeBenchは、極端に長いエゴセントリックなビデオ録画のタスクを評価するために特別に作られた、新しいベンチマークデータセットである。
論文参考訳（メタデータ） (2025-01-12T15:07:03Z)
HLV-1K: A Large-scale Hour-Long Video Benchmark for Time-Specific Long Video Understanding [52.696422425058245]
我々は、長時間ビデオ理解モデルを評価するために、大規模な時間長ビデオベンチマークHLV-1Kを構築した。 HLV-1Kは、高品質質問応答(QA)とマルチチョイス質問応答(MCQA)を備えた1009時間ビデオからなる。我々は,既存の最先端手法を用いてベンチマークを評価し,様々なレベルでの深層ビデオ理解能力をテストすることの価値を実証した。
論文参考訳（メタデータ） (2025-01-03T05:32:37Z)
Neptune: The Long Orbit to Benchmarking Long Video Understanding [73.96154871970062]
長いビデオ理解のためのベンチマークであるNeptuneを紹介します。我々のデータセットは、幅広いビデオ推論能力をカバーしており、マルチモーダル推論を強調するサブセットで構成されています。ベンチマーク評価によると、現在のオープンソース長ビデオモデルのほとんどは、Neptuneではパフォーマンスが悪くなっている。
論文参考訳（メタデータ） (2024-12-12T18:54:48Z)
HourVideo: 1-Hour Video-Language Understanding [34.90495038962066]
HourVideoは、時間単位のビデオ言語理解のためのベンチマークデータセットである。 HourVideoには、20分から120分の間、手動で編集されたエゴセントリックなビデオが500本含まれている。ベンチマークの結果、GPT-4やLLaVA-NeXTを含むマルチモーダルモデルでは、ランダムな確率よりも限界的な改善が得られた。
論文参考訳（メタデータ） (2024-11-07T18:59:16Z)
TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。 GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文参考訳（メタデータ） (2024-10-14T17:59:58Z)
MM-Ego: Towards Building Egocentric Multimodal LLMs [72.47344411599322]
本研究の目的は,エゴセントリックな映像理解のためのマルチモーダル基盤モデルの構築である。我々は,人間による注釈付きデータに基づいて,30秒から1時間に及ぶエゴセントリックビデオの高品質なQAサンプルを効率よく生成するデータエンジンを開発した。我々は、629の動画と7,026の質問でエゴセントリックなQAベンチマークを作成し、様々な長さのビデオで視覚的詳細を認識・記憶するモデルの能力を評価する。
論文参考訳（メタデータ） (2024-10-09T17:59:59Z)
LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding [41.9477837230283]
LongVideoBenchは質問に答えるベンチマークで、最大1時間までビデオ言語によるインターリーブされたインプットを特徴としている。私たちのベンチマークには、さまざまなテーマにまたがるサブタイトルを持つ3,763種類のウェブコレクトビデオが含まれています。我々は、推論を参照する新しいビデオ質問応答タスクを定式化する。
論文参考訳（メタデータ） (2024-07-22T16:00:55Z)
Goldfish: Vision-Language Understanding of Arbitrarily Long Videos [51.547065479762715]
任意の長さのビデオの解釈に適した手法を提案する。また,TVQA-longベンチマークを導入し,視覚とテキストコンテンツの両方に疑問を呈する長編ビデオの理解におけるモデルの能力を評価する。以上の結果から,本モデルでは長大・短大双方の理解が大幅に改善されていることが示唆された。
論文参考訳（メタデータ） (2024-07-17T15:59:32Z)
LVBench: An Extreme Long Video Understanding Benchmark [38.839913137854104]
LVBenchは長いビデオの理解に特化して設計されたベンチマークである。我々のデータセットは、公開されているビデオからなり、長いビデオの理解と情報抽出を目的とした様々なタスクを包含する。
論文参考訳（メタデータ） (2024-06-12T09:36:52Z)
CinePile: A Long Video Question Answering Dataset and Benchmark [55.30860239555001]
我々は、CinePileという新しいデータセットとベンチマークを提示する。包括的データセットは305,000の多重選択質問(MCQ)から構成されており、様々な視覚的・マルチモーダル的な側面をカバーしている。トレーニングスプリットに関して、オープンソースのVideo-LLMを微調整し、データセットのテストスプリット上で、オープンソースとプロプライエタリなビデオ中心LLMの両方を評価しました。
論文参考訳（メタデータ） (2024-05-14T17:59:02Z)
Koala: Key frame-conditioned long video-LLM [70.52369588364992]
我々は、より長いビデオに一般化するために、事前訓練されたvLLMに適応するための軽量で自己監督型の長ビデオLLM(Koala)を提案する。提案手法は,全タスクの絶対精度を3～6%向上させる。意外なことに、我々のアプローチは、訓練済みのvLLMが長いビデオを理解するのに役立つだけでなく、短期的な行動認識における精度を向上させることを実証的に示す。
論文参考訳（メタデータ） (2024-04-05T18:33:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。