論文の概要: Event detection in coarsely annotated sports videos via parallel multi
receptive field 1D convolutions
- arxiv url: http://arxiv.org/abs/2004.06172v1
- Date: Mon, 13 Apr 2020 19:51:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 00:20:20.586686
- Title: Event detection in coarsely annotated sports videos via parallel multi
receptive field 1D convolutions
- Title(参考訳): マルチレセプティブフィールド1Dコンボリューションによる粗い注釈付きスポーツビデオのイベント検出
- Authors: Kanav Vats, Mehrnaz Fani, Pascale Walters, David A. Clausi, John Zelek
- Abstract要約: スポーツビデオ分析のような問題では、正確なフレームレベルのアノテーションと正確なイベント時間を得るのは難しい。
粗い注釈付きビデオにおけるイベント検出の課題を提案する。
本稿では,提案課題に対する多層時間畳み込みネットワークアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 14.30009544149561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In problems such as sports video analytics, it is difficult to obtain
accurate frame level annotations and exact event duration because of the
lengthy videos and sheer volume of video data. This issue is even more
pronounced in fast-paced sports such as ice hockey. Obtaining annotations on a
coarse scale can be much more practical and time efficient. We propose the task
of event detection in coarsely annotated videos. We introduce a multi-tower
temporal convolutional network architecture for the proposed task. The network,
with the help of multiple receptive fields, processes information at various
temporal scales to account for the uncertainty with regard to the exact event
location and duration. We demonstrate the effectiveness of the multi-receptive
field architecture through appropriate ablation studies. The method is
evaluated on two tasks - event detection in coarsely annotated hockey videos in
the NHL dataset and event spotting in soccer on the SoccerNet dataset. The two
datasets lack frame-level annotations and have very distinct event frequencies.
Experimental results demonstrate the effectiveness of the network by obtaining
a 55% average F1 score on the NHL dataset and by achieving competitive
performance compared to the state of the art on the SoccerNet dataset. We
believe our approach will help develop more practical pipelines for event
detection in sports video.
- Abstract(参考訳): スポーツビデオ分析などの問題では,ビデオデータの長大さから,正確なフレームレベルのアノテーションと正確なイベント時間を得るのは難しい。
この問題はアイスホッケーなどの急ピッチスポーツでさらに顕著である。
粗いスケールでのアノテーションの取得は、ずっと実用的で時間効率が良い。
粗い注釈付きビデオにおけるイベント検出の課題を提案する。
本稿では,提案課題に対する多層時間畳み込みネットワークアーキテクチャを提案する。
ネットワークは、複数の受信フィールドの助けを借りて、様々な時間スケールで情報を処理し、正確な事象の位置と期間に関する不確実性を考慮する。
適切なアブレーション研究を通じて,多受容場アーキテクチャの有効性を実証する。
NHLデータセットにおける粗い注釈付きホッケービデオにおけるイベント検出とサッカーにおけるイベントスポッティングの2つのタスクで評価した。
2つのデータセットにはフレームレベルのアノテーションがなく、イベント頻度が非常に異なる。
実験により,NHLデータセットの平均F1スコアを55%取得し,サッカーネットデータセットの最先端技術と比較して競争性能を向上することにより,ネットワークの有効性を実証した。
我々は,スポーツビデオにおけるイベント検出のための,より実用的なパイプラインの開発を支援する。
関連論文リスト
- Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Towards Active Learning for Action Spotting in Association Football
Videos [59.84375958757395]
フットボールビデオの分析は困難であり、微妙で多様な時間的パターンを特定する必要がある。
現在のアルゴリズムは、限られた注釈付きデータから学ぶ際に大きな課題に直面している。
次にアノテートすべき最も情報に富んだビデオサンプルを選択する能動的学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-09T11:50:41Z) - Sports Video Analysis on Large-Scale Data [10.24207108909385]
本稿では,スポーツビデオにおける自動機械記述のモデル化について検討する。
スポーツビデオ分析のためのNBAデータセット(NSVA)を提案する。
論文 参考訳(メタデータ) (2022-08-09T16:59:24Z) - $\textbf{P$^2$A}$: A Dataset and Benchmark for Dense Action Detection
from Table Tennis Match Broadcasting Videos [54.71836328275178]
スポーツビデオデータセット $textbfP$2$A$ for $underlineP$ong-$underlineA$ction detection もリリースしています。
このデータセットはプロの卓球試合の放送ビデオから収集された2,721本のビデオクリップで構成されている。
論文 参考訳(メタデータ) (2022-07-26T08:34:17Z) - SoccerNet-Tracking: Multiple Object Tracking Dataset and Benchmark in
Soccer Videos [62.686484228479095]
本稿では,各30の200列からなる複数物体追跡のための新しいデータセットを提案する。
データセットは、バウンディングボックスとトラックレットIDで完全に注釈付けされている。
分析の結果,サッカービデオにおける複数の選手,審判,ボール追跡が解決されるには程遠いことがわかった。
論文 参考訳(メタデータ) (2022-04-14T12:22:12Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - RMS-Net: Regression and Masking for Soccer Event Spotting [52.742046866220484]
イベントラベルとその時間的オフセットを同時に予測できる,軽量でモジュール化されたアクションスポッティングネットワークを開発した。
SoccerNetデータセットでテストし、標準機能を使用して、完全な提案は3平均mAPポイントで現在の状態を超えます。
論文 参考訳(メタデータ) (2021-02-15T16:04:18Z) - Improved Soccer Action Spotting using both Audio and Video Streams [3.4376560669160394]
本稿では,ディープニューラルネットワークアーキテクチャの様々な段階における音声と映像の情報の組み合わせについて検討する。
我々は、Big Five European Leaguesの500のサッカーゲームビデオの注釈付きイベントを含む、 SoccerNetベンチマークデータセットを使用した。
平均的平均精度(mAP)は,行動分類タスクが7.43%,行動スポッティングタスクが4.19%であった。
論文 参考訳(メタデータ) (2020-11-09T09:12:44Z) - TTNet: Real-time temporal and spatial video analysis of table tennis [5.156484100374058]
本稿では,高精細度卓球ビデオのリアルタイム処理を目的としたニューラルネットワークを提案する。
このアプローチは、自動参照システムによるスコア更新を推論するためのコア情報を提供する。
イベントをラベル付けした120fpsのテーブルテニスゲームのビデオ付きマルチタスクデータセットOpenTTGamesを公開している。
論文 参考訳(メタデータ) (2020-04-21T11:57:51Z) - Unsupervised Temporal Feature Aggregation for Event Detection in
Unstructured Sports Videos [10.230408415438966]
任意のカメラアングルを持つ非構造化環境を対象としたスポーツビデオにおけるイベント検出事例について検討した。
我々は、非構造化設定におけるプレイヤーの教師なし識別と、任意の射撃角度によるバリエーションを示すために訓練されたモデルの一般化の2つの主要な問題を同定し、解決する。
論文 参考訳(メタデータ) (2020-02-19T10:24:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。