論文の概要: Improved Soccer Action Spotting using both Audio and Video Streams
- arxiv url: http://arxiv.org/abs/2011.04258v1
- Date: Mon, 9 Nov 2020 09:12:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 01:17:05.704792
- Title: Improved Soccer Action Spotting using both Audio and Video Streams
- Title(参考訳): オーディオとビデオの両方を用いたサッカーのアクションスポッティングの改善
- Authors: Bastien Vanderplaetse, St\'ephane Dupont
- Abstract要約: 本稿では,ディープニューラルネットワークアーキテクチャの様々な段階における音声と映像の情報の組み合わせについて検討する。
我々は、Big Five European Leaguesの500のサッカーゲームビデオの注釈付きイベントを含む、 SoccerNetベンチマークデータセットを使用した。
平均的平均精度(mAP)は,行動分類タスクが7.43%,行動スポッティングタスクが4.19%であった。
- 参考スコア(独自算出の注目度): 3.4376560669160394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a study on multi-modal (audio and video) action
spotting and classification in soccer videos. Action spotting and
classification are the tasks that consist in finding the temporal anchors of
events in a video and determine which event they are. This is an important
application of general activity understanding. Here, we propose an experimental
study on combining audio and video information at different stages of deep
neural network architectures. We used the SoccerNet benchmark dataset, which
contains annotated events for 500 soccer game videos from the Big Five European
leagues. Through this work, we evaluated several ways to integrate audio stream
into video-only-based architectures. We observed an average absolute
improvement of the mean Average Precision (mAP) metric of $7.43\%$ for the
action classification task and of $4.19\%$ for the action spotting task.
- Abstract(参考訳): 本稿では,サッカービデオにおけるマルチモーダル・アクションスポッティングと分類について検討する。
アクションスポッティングと分類は、ビデオ内のイベントの時間的アンカーを見つけ、それらがどのイベントであるかを判断するタスクである。
これは一般的な活動理解の重要な応用である。
本稿では,ディープニューラルネットワークアーキテクチャの異なる段階における音声情報と映像情報の組み合わせに関する実験的検討を行う。
我々は、Big Five European Leaguesの500のサッカーゲームビデオの注釈付きイベントを含む、 SoccerNetベンチマークデータセットを使用した。
本研究では,ビデオのみに基づくアーキテクチャにオーディオストリームを統合するいくつかの方法を評価する。
平均平均精度(map)測定値の平均絶対値が、アクション分類タスクで7.43\%$、アクションスポッティングタスクで4.19\%$であるのを観察した。
関連論文リスト
- Deep learning for action spotting in association football videos [64.10841325879996]
SoccerNetイニシアチブは毎年の課題を組織し、世界中の参加者が最先端のパフォーマンスを達成するために競う。
本稿では,スポーツにおけるアクションスポッティングの歴史を,2018年の課題の創出から,現在の研究・スポーツ産業における役割まで遡る。
論文 参考訳(メタデータ) (2024-10-02T07:56:15Z) - Towards Active Learning for Action Spotting in Association Football
Videos [59.84375958757395]
フットボールビデオの分析は困難であり、微妙で多様な時間的パターンを特定する必要がある。
現在のアルゴリズムは、限られた注釈付きデータから学ぶ際に大きな課題に直面している。
次にアノテートすべき最も情報に富んだビデオサンプルを選択する能動的学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-09T11:50:41Z) - A Graph-Based Method for Soccer Action Spotting Using Unsupervised
Player Classification [75.93186954061943]
アクションスポッティングには、ゲームのダイナミクス、イベントの複雑さ、ビデオシーケンスのバリエーションを理解することが含まれる。
本研究では, (a) 選手, 審判, ゴールキーパーをグラフのノードとして識別し, および (b) 時間的相互作用をグラフのシーケンスとしてモデル化することによって, 前者に焦点を当てる。
プレーヤ識別タスクでは,他のモダリティと組み合わせることで,平均mAPの57.83%の総合的な性能が得られる。
論文 参考訳(メタデータ) (2022-11-22T15:23:53Z) - P2ANet: A Dataset and Benchmark for Dense Action Detection from Table Tennis Match Broadcasting Videos [64.57435509822416]
この作品は、ワールド・テーブルテニス選手権とオリンピアードのプロの卓球試合の放送ビデオから収集された2,721本のビデオクリップで構成されている。
強調局所化と強調認識という2つのアクション検出問題を定式化する。
その結果、TheNameは依然として困難なタスクであり、ビデオからの高密度なアクション検出のための特別なベンチマークとして使用できることを確認した。
論文 参考訳(メタデータ) (2022-07-26T08:34:17Z) - Feature Combination Meets Attention: Baidu Soccer Embeddings and
Transformer based Temporal Detection [3.7709686875144337]
本稿では,サッカー中継ビデオにおけるイベントの発生状況と発生状況を検出するための2段階のパラダイムを提案する。
具体的には,サッカーデータ上に複数のアクション認識モデルを微調整し,ハイレベルなセマンティックな特徴を抽出する。
このアプローチは、サッカーネットv2チャレンジにおける2つのタスク、すなわちアクションスポッティングとリプレイグラウンドにおいて、最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2021-06-28T08:00:21Z) - Temporally-Aware Feature Pooling for Action Spotting in Soccer
Broadcasts [86.56462654572813]
私たちは、サッカーの試合の主なアクションを一時的にローカライズするサッカー放送におけるアクションスポッティングの分析に焦点を当てています。
時間的知識を組み込んだNetVLAD++という,NetVLADに基づく新たな機能プーリング手法を提案する。
我々は最近の大規模データセット SoccerNet-v2 の方法論をトレーニングし、評価し、アクションスポッティングのための平均平均mAP 53.4% に達した。
論文 参考訳(メタデータ) (2021-04-14T11:09:03Z) - Hybrid Dynamic-static Context-aware Attention Network for Action
Assessment in Long Videos [96.45804577283563]
本稿では,長期ビデオにおけるアクションアセスメントのための新しいハイブリットDynAmic-static Context-aware AttenTION NETwork(ACTION-NET)を提案する。
ビデオのダイナミックな情報を学習すると同時に,特定フレームにおける検出した選手の静的姿勢にも焦点をあてる。
2つのストリームの特徴を組み合わせることで、専門家が与えた地道的なスコアによって監督され、最終的なビデオスコアを後退させます。
論文 参考訳(メタデータ) (2020-08-13T15:51:42Z) - Event detection in coarsely annotated sports videos via parallel multi
receptive field 1D convolutions [14.30009544149561]
スポーツビデオ分析のような問題では、正確なフレームレベルのアノテーションと正確なイベント時間を得るのは難しい。
粗い注釈付きビデオにおけるイベント検出の課題を提案する。
本稿では,提案課題に対する多層時間畳み込みネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-04-13T19:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。