論文の概要: Building Scalable Video Understanding Benchmarks through Sports
- arxiv url: http://arxiv.org/abs/2301.06866v2
- Date: Thu, 19 Jan 2023 15:33:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-20 11:24:14.590175
- Title: Building Scalable Video Understanding Benchmarks through Sports
- Title(参考訳): スポーツによるスケーラブルなビデオ理解ベンチマークの構築
- Authors: Aniket Agarwal, Alex Zhang, Karthik Narasimhan, Igor Gilitschenski,
Vishvak Murahari, Yash Kant
- Abstract要約: 自動ビデオストリームアライメントパイプライン(ASAP)を導入する。
我々は,4つのスポーツのラベル付きビデオとそれに対応する濃密なアノテーション(注釈)をウェブ上で自由に利用できるようにすることで,ASAPを実証する。
その後、ASAPのスケーラビリティを活用して、1,000時間以上の高密度なCricketビデオを備えた大規模な長ビデオ理解ベンチマークであるLCricを作成します。
- 参考スコア(独自算出の注目度): 22.851883205547644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing benchmarks for evaluating long video understanding falls short on
multiple aspects, either lacking in scale or quality of annotations. These
limitations arise from the difficulty in collecting dense annotations for long
videos (e.g. actions, dialogues, etc.), which are often obtained by manually
labeling many frames per second. In this work, we introduce an automated
Annotation and Video Stream Alignment Pipeline (abbreviated ASAP). We
demonstrate the generality of ASAP by aligning unlabeled videos of four
different sports (Cricket, Football, Basketball, and American Football) with
their corresponding dense annotations (i.e. commentary) freely available on the
web. Our human studies indicate that ASAP can align videos and annotations with
high fidelity, precision, and speed. We then leverage ASAP scalability to
create LCric, a large-scale long video understanding benchmark, with over 1000
hours of densely annotated long Cricket videos (with an average sample length
of 50 mins) collected at virtually zero annotation cost. We benchmark and
analyze state-of-the-art video understanding models on LCric through a large
set of compositional multi-choice and regression queries. We establish a human
baseline that indicates significant room for new research to explore. The
dataset along with the code for ASAP and baselines can be accessed here:
https://asap-benchmark.github.io/.
- Abstract(参考訳): 長いビデオ理解を評価するための既存のベンチマークは、スケールやアノテーションの品質の欠如など、複数の面で不足している。
これらの制限は、長いビデオ(アクションや対話など)に密接な注釈を付けることの難しさから生じており、毎秒に多くのフレームを手作業でラベル付けすることで得られることが多い。
本稿では,自動アノテーションとビデオストリームアライメントパイプライン(ASAP)を紹介する。
我々は,4つのスポーツ(クリケット,サッカー,バスケットボール,アメリカンフットボール)のラベル付きビデオと対応する濃密アノテーション(注釈)をウェブ上で自由に利用できるようにすることで,ASAPの一般性を実証する。
人間の研究では、ASAPがビデオやアノテーションを高い忠実度、精度、スピードで調整できることが示されています。
そして、ASAPのスケーラビリティを活用して、大規模な長ビデオ理解ベンチマークであるLCricを作成し、1000時間以上の高精細な注釈付きCricketビデオ(平均サンプル長50分)を、ほぼゼロのアノテーションコストで収集します。
我々は,LCric 上の最新の映像理解モデルについて,大規模な合成多重選択クエリと回帰クエリを用いてベンチマークおよび解析を行った。
我々は、新たな研究の余地を示す人間のベースラインを確立する。
asapとベースラインのコードとともにデータセットは、ここでアクセスすることができる。
関連論文リスト
- Can LVLMs Describe Videos like Humans? A Five-in-One Video Annotations Benchmark for Better Human-Machine Comparison [15.363132825156477]
ビデオ記述は、ビデオ理解を評価するための基本的なタスクであり、空間的・時間的ダイナミクスの深い理解を必要とする。
ビデオ理解のための現在のベンチマークには、短いビデオの長さ、短いアノテーション、単一アノテーションの観点への依存など、注目すべき制限がある。
本稿では,LVLMと人間の理解の相違をより包括的に評価するための新しいベンチマークFIOVAを提案する。
論文 参考訳(メタデータ) (2024-10-20T03:59:54Z) - LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding [41.9477837230283]
LongVideoBenchは質問に答えるベンチマークで、最大1時間までビデオ言語によるインターリーブされたインプットを特徴としている。
私たちのベンチマークには、さまざまなテーマにまたがるサブタイトルを持つ3,763種類のウェブコレクトビデオが含まれています。
我々は、推論を参照する新しいビデオ質問応答タスクを定式化する。
論文 参考訳(メタデータ) (2024-07-22T16:00:55Z) - Goldfish: Vision-Language Understanding of Arbitrarily Long Videos [51.547065479762715]
任意の長さのビデオの解釈に適した手法を提案する。
また,TVQA-longベンチマークを導入し,視覚とテキストコンテンツの両方に疑問を呈する長編ビデオの理解におけるモデルの能力を評価する。
以上の結果から,本モデルでは長大・短大双方の理解が大幅に改善されていることが示唆された。
論文 参考訳(メタデータ) (2024-07-17T15:59:32Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - LVBench: An Extreme Long Video Understanding Benchmark [38.839913137854104]
LVBenchは長いビデオの理解に特化して設計されたベンチマークである。
我々のデータセットは、公開されているビデオからなり、長いビデオの理解と情報抽出を目的とした様々なタスクを包含する。
論文 参考訳(メタデータ) (2024-06-12T09:36:52Z) - Koala: Key frame-conditioned long video-LLM [70.52369588364992]
我々は、より長いビデオに一般化するために、事前訓練されたvLLMに適応するための軽量で自己監督型の長ビデオLLM(Koala)を提案する。
提案手法は,全タスクの絶対精度を3~6%向上させる。
意外なことに、我々のアプローチは、訓練済みのvLLMが長いビデオを理解するのに役立つだけでなく、短期的な行動認識における精度を向上させることを実証的に示す。
論文 参考訳(メタデータ) (2024-04-05T18:33:04Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - Hierarchical Video-Moment Retrieval and Step-Captioning [68.4859260853096]
HiRESTは、インストラクショナルビデオデータセットから3.4Kのテキストビデオペアで構成されている。
我々の階層的ベンチマークは、ビデオ検索、モーメント検索、2つの新しいモーメントセグメンテーション、ステップキャプションタスクからなる。
論文 参考訳(メタデータ) (2023-03-29T02:33:54Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - Less is More: ClipBERT for Video-and-Language Learning via Sparse
Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。
本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。
6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-02-11T18:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。