論文の概要: Event detection in coarsely annotated sports videos via parallel multi
receptive field 1D convolutions
- arxiv url: http://arxiv.org/abs/2004.06172v1
- Date: Mon, 13 Apr 2020 19:51:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 00:20:20.586686
- Title: Event detection in coarsely annotated sports videos via parallel multi
receptive field 1D convolutions
- Title(参考訳): マルチレセプティブフィールド1Dコンボリューションによる粗い注釈付きスポーツビデオのイベント検出
- Authors: Kanav Vats, Mehrnaz Fani, Pascale Walters, David A. Clausi, John Zelek
- Abstract要約: スポーツビデオ分析のような問題では、正確なフレームレベルのアノテーションと正確なイベント時間を得るのは難しい。
粗い注釈付きビデオにおけるイベント検出の課題を提案する。
本稿では,提案課題に対する多層時間畳み込みネットワークアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 14.30009544149561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In problems such as sports video analytics, it is difficult to obtain
accurate frame level annotations and exact event duration because of the
lengthy videos and sheer volume of video data. This issue is even more
pronounced in fast-paced sports such as ice hockey. Obtaining annotations on a
coarse scale can be much more practical and time efficient. We propose the task
of event detection in coarsely annotated videos. We introduce a multi-tower
temporal convolutional network architecture for the proposed task. The network,
with the help of multiple receptive fields, processes information at various
temporal scales to account for the uncertainty with regard to the exact event
location and duration. We demonstrate the effectiveness of the multi-receptive
field architecture through appropriate ablation studies. The method is
evaluated on two tasks - event detection in coarsely annotated hockey videos in
the NHL dataset and event spotting in soccer on the SoccerNet dataset. The two
datasets lack frame-level annotations and have very distinct event frequencies.
Experimental results demonstrate the effectiveness of the network by obtaining
a 55% average F1 score on the NHL dataset and by achieving competitive
performance compared to the state of the art on the SoccerNet dataset. We
believe our approach will help develop more practical pipelines for event
detection in sports video.
- Abstract(参考訳): スポーツビデオ分析などの問題では,ビデオデータの長大さから,正確なフレームレベルのアノテーションと正確なイベント時間を得るのは難しい。
この問題はアイスホッケーなどの急ピッチスポーツでさらに顕著である。
粗いスケールでのアノテーションの取得は、ずっと実用的で時間効率が良い。
粗い注釈付きビデオにおけるイベント検出の課題を提案する。
本稿では,提案課題に対する多層時間畳み込みネットワークアーキテクチャを提案する。
ネットワークは、複数の受信フィールドの助けを借りて、様々な時間スケールで情報を処理し、正確な事象の位置と期間に関する不確実性を考慮する。
適切なアブレーション研究を通じて,多受容場アーキテクチャの有効性を実証する。
NHLデータセットにおける粗い注釈付きホッケービデオにおけるイベント検出とサッカーにおけるイベントスポッティングの2つのタスクで評価した。
2つのデータセットにはフレームレベルのアノテーションがなく、イベント頻度が非常に異なる。
実験により,NHLデータセットの平均F1スコアを55%取得し,サッカーネットデータセットの最先端技術と比較して競争性能を向上することにより,ネットワークの有効性を実証した。
我々は,スポーツビデオにおけるイベント検出のための,より実用的なパイプラインの開発を支援する。
関連論文リスト
- EA-VTR: Event-Aware Video-Text Retrieval [97.30850809266725]
Event-Aware Video-Text Retrievalモデルは、優れたビデオイベント認識を通じて、強力なビデオテキスト検索能力を実現する。
EA-VTRはフレームレベルとビデオレベルの視覚表現を同時にエンコードすることができ、詳細なイベント内容と複雑なイベントの時間的相互アライメントを可能にする。
論文 参考訳(メタデータ) (2024-07-10T09:09:58Z) - Towards Active Learning for Action Spotting in Association Football
Videos [59.84375958757395]
フットボールビデオの分析は困難であり、微妙で多様な時間的パターンを特定する必要がある。
現在のアルゴリズムは、限られた注釈付きデータから学ぶ際に大きな課題に直面している。
次にアノテートすべき最も情報に富んだビデオサンプルを選択する能動的学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-09T11:50:41Z) - Sports Video Analysis on Large-Scale Data [10.24207108909385]
本稿では,スポーツビデオにおける自動機械記述のモデル化について検討する。
スポーツビデオ分析のためのNBAデータセット(NSVA)を提案する。
論文 参考訳(メタデータ) (2022-08-09T16:59:24Z) - P2ANet: A Dataset and Benchmark for Dense Action Detection from Table Tennis Match Broadcasting Videos [64.57435509822416]
この作品は、ワールド・テーブルテニス選手権とオリンピアードのプロの卓球試合の放送ビデオから収集された2,721本のビデオクリップで構成されている。
強調局所化と強調認識という2つのアクション検出問題を定式化する。
その結果、TheNameは依然として困難なタスクであり、ビデオからの高密度なアクション検出のための特別なベンチマークとして使用できることを確認した。
論文 参考訳(メタデータ) (2022-07-26T08:34:17Z) - SoccerNet-Tracking: Multiple Object Tracking Dataset and Benchmark in
Soccer Videos [62.686484228479095]
本稿では,各30の200列からなる複数物体追跡のための新しいデータセットを提案する。
データセットは、バウンディングボックスとトラックレットIDで完全に注釈付けされている。
分析の結果,サッカービデオにおける複数の選手,審判,ボール追跡が解決されるには程遠いことがわかった。
論文 参考訳(メタデータ) (2022-04-14T12:22:12Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - RMS-Net: Regression and Masking for Soccer Event Spotting [52.742046866220484]
イベントラベルとその時間的オフセットを同時に予測できる,軽量でモジュール化されたアクションスポッティングネットワークを開発した。
SoccerNetデータセットでテストし、標準機能を使用して、完全な提案は3平均mAPポイントで現在の状態を超えます。
論文 参考訳(メタデータ) (2021-02-15T16:04:18Z) - TTNet: Real-time temporal and spatial video analysis of table tennis [5.156484100374058]
本稿では,高精細度卓球ビデオのリアルタイム処理を目的としたニューラルネットワークを提案する。
このアプローチは、自動参照システムによるスコア更新を推論するためのコア情報を提供する。
イベントをラベル付けした120fpsのテーブルテニスゲームのビデオ付きマルチタスクデータセットOpenTTGamesを公開している。
論文 参考訳(メタデータ) (2020-04-21T11:57:51Z) - Unsupervised Temporal Feature Aggregation for Event Detection in
Unstructured Sports Videos [10.230408415438966]
任意のカメラアングルを持つ非構造化環境を対象としたスポーツビデオにおけるイベント検出事例について検討した。
我々は、非構造化設定におけるプレイヤーの教師なし識別と、任意の射撃角度によるバリエーションを示すために訓練されたモデルの一般化の2つの主要な問題を同定し、解決する。
論文 参考訳(メタデータ) (2020-02-19T10:24:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。