論文の概要: Building Scalable Video Understanding Benchmarks through Sports
- arxiv url: http://arxiv.org/abs/2301.06866v1
- Date: Tue, 17 Jan 2023 13:20:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 14:11:02.568181
- Title: Building Scalable Video Understanding Benchmarks through Sports
- Title(参考訳): スポーツによるスケーラブルなビデオ理解ベンチマークの構築
- Authors: Aniket Agarwal, Alex Zhang, Karthik Narasimhan, Igor Gilitschenski,
Vishvak Murahari, Yash Kant
- Abstract要約: 長いビデオ理解を評価するための既存のベンチマークは、複数の側面で不足している。
これらの制限は、長いビデオのための密集したアノテーションを集めることの難しさから生じる。
自動アノテートおよびビデオストリームアライメントパイプライン(ASAP)を導入する。
次に、ASAPのスケーラビリティを活用して、大規模な長ビデオ理解ベンチマークであるLCricを作成します。
- 参考スコア(独自算出の注目度): 22.851883205547644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing benchmarks for evaluating long video understanding falls short on
multiple aspects, either lacking in scale or quality of annotations. These
limitations arise from the difficulty in collecting dense annotations for long
videos (e.g. actions, dialogues, etc.), which are often obtained by manually
labeling many frames per second. In this work, we introduce an automated
Annotation and Video Stream Alignment Pipeline (abbreviated ASAP). We
demonstrate the generality of ASAP by aligning unlabeled videos of four
different sports (Cricket, Football, Basketball, and American Football) with
their corresponding dense annotations (i.e. commentary) freely available on the
web. Our human studies indicate that ASAP can align videos and annotations with
high fidelity, precision, and speed. We then leverage ASAP scalability to
create LCric, a large-scale long video understanding benchmark, with over 1000
hours of densely annotated long Cricket videos (with an average sample length
of 50 mins) collected at virtually zero annotation cost. We benchmark and
analyze state-of-the-art video understanding models on LCric through a large
set of compositional multi-choice and regression queries. We establish a human
baseline that indicates significant room for new research to explore.
- Abstract(参考訳): 長いビデオ理解を評価するための既存のベンチマークは、スケールやアノテーションの品質の欠如など、複数の面で不足している。
これらの制限は、長いビデオ(アクションや対話など)に密接な注釈を付けることの難しさから生じており、毎秒に多くのフレームを手作業でラベル付けすることで得られることが多い。
本稿では,自動アノテーションとビデオストリームアライメントパイプライン(ASAP)を紹介する。
我々は,4つのスポーツ(クリケット,サッカー,バスケットボール,アメリカンフットボール)のラベル付きビデオと対応する濃密アノテーション(注釈)をウェブ上で自由に利用できるようにすることで,ASAPの一般性を実証する。
人間の研究では、ASAPがビデオやアノテーションを高い忠実度、精度、スピードで調整できることが示されています。
そして、ASAPのスケーラビリティを活用して、大規模な長ビデオ理解ベンチマークであるLCricを作成し、1000時間以上の高精細な注釈付きCricketビデオ(平均サンプル長50分)を、ほぼゼロのアノテーションコストで収集します。
我々は,LCric 上の最新の映像理解モデルについて,大規模な合成多重選択クエリと回帰クエリを用いてベンチマークおよび解析を行った。
我々は、新たな研究の余地を示す人間のベースラインを確立する。
関連論文リスト
- A Video is Worth 10,000 Words: Training and Benchmarking with Diverse
Captions for Better Long Video Retrieval [43.58794386905177]
既存の長いビデオ検索システムは、段落から段落までの検索システムで訓練され、テストされる。
これは、ビデオのリッチさと多種多様な有効な記述を無視している。
本稿では,最先端の大規模言語モデルを利用して,多種多様な合成キャプションを注意深く生成するパイプラインを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:59:45Z) - Query-aware Long Video Localization and Relation Discrimination for Deep
Video Understanding [15.697251303126874]
Deep Video Understanding (DVU) Challengeは、マルチモーダル抽出、融合、分析の境界を推し進めることを目的としている。
本稿では,画像言語事前学習モデルを利用して,長時間の動画のローカライゼーションと関係の識別を行うクエリアウェア手法を提案する。
本手法は,映画レベルの問合せの2つのグループにおいて,第1位と第4位を達成した。
論文 参考訳(メタデータ) (2023-10-19T13:26:02Z) - Hierarchical Video-Moment Retrieval and Step-Captioning [68.4859260853096]
HiRESTは、インストラクショナルビデオデータセットから3.4Kのテキストビデオペアで構成されている。
我々の階層的ベンチマークは、ビデオ検索、モーメント検索、2つの新しいモーメントセグメンテーション、ステップキャプションタスクからなる。
論文 参考訳(メタデータ) (2023-03-29T02:33:54Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - Video Moment Retrieval from Text Queries via Single Frame Annotation [65.92224946075693]
ビデオモーメント検索は、与えられた自然言語クエリによって記述されたモーメントの開始と終了のタイムスタンプを見つけることを目的としている。
完全な教師付き手法は、有望な結果を達成するために完全な時間境界アノテーションを必要とする。
我々は「用語アノテーション」と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-04-20T11:59:17Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z) - Less is More: ClipBERT for Video-and-Language Learning via Sparse
Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。
本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。
6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-02-11T18:50:16Z) - t-EVA: Time-Efficient t-SNE Video Annotation [16.02592287695421]
t-EVAは、ビデオ分類におけるテスト精度を維持しながら、他のビデオアノテーションツールより優れている。
t-EVAはビデオ分類におけるテスト精度を維持しつつ、他のビデオアノテーションツールよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-26T09:56:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。