論文の概要: Unsupervised Temporal Feature Aggregation for Event Detection in
Unstructured Sports Videos
- arxiv url: http://arxiv.org/abs/2002.08097v1
- Date: Wed, 19 Feb 2020 10:24:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 14:13:29.829555
- Title: Unsupervised Temporal Feature Aggregation for Event Detection in
Unstructured Sports Videos
- Title(参考訳): スポーツビデオにおけるイベント検出のための教師なし時間的特徴集約
- Authors: Subhajit Chaudhury, Daiki Kimura, Phongtharin Vinayavekhin, Asim
Munawar, Ryuki Tachibana, Koji Ito, Yuki Inaba, Minoru Matsumoto, Shuji
Kidokoro and Hiroki Ozaki
- Abstract要約: 任意のカメラアングルを持つ非構造化環境を対象としたスポーツビデオにおけるイベント検出事例について検討した。
我々は、非構造化設定におけるプレイヤーの教師なし識別と、任意の射撃角度によるバリエーションを示すために訓練されたモデルの一般化の2つの主要な問題を同定し、解決する。
- 参考スコア(独自算出の注目度): 10.230408415438966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-based sports analytics enable automatic retrieval of key events in a
game to speed up the analytics process for human experts. However, most
existing methods focus on structured television broadcast video datasets with a
straight and fixed camera having minimum variability in the capturing pose. In
this paper, we study the case of event detection in sports videos for
unstructured environments with arbitrary camera angles. The transition from
structured to unstructured video analysis produces multiple challenges that we
address in our paper. Specifically, we identify and solve two major problems:
unsupervised identification of players in an unstructured setting and
generalization of the trained models to pose variations due to arbitrary
shooting angles. For the first problem, we propose a temporal feature
aggregation algorithm using person re-identification features to obtain high
player retrieval precision by boosting a weak heuristic scoring method.
Additionally, we propose a data augmentation technique, based on multi-modal
image translation model, to reduce bias in the appearance of training samples.
Experimental evaluations show that our proposed method improves precision for
player retrieval from 0.78 to 0.86 for obliquely angled videos. Additionally,
we obtain an improvement in F1 score for rally detection in table tennis videos
from 0.79 in case of global frame-level features to 0.89 using our proposed
player-level features. Please see the supplementary video submission at
https://ibm.biz/BdzeZA.
- Abstract(参考訳): 画像ベースのスポーツ分析は、ゲーム内の重要なイベントの自動検索を可能にし、人間の専門家の分析プロセスを高速化する。
しかし、既存の方法のほとんどは、撮影ポーズの変動が最小限の直列および固定カメラを備えた構造化テレビ放送ビデオデータセットに焦点を当てている。
本稿では,任意のカメラアングルを有する非構造環境におけるスポーツ映像におけるイベント検出の事例について検討する。
構造化ビデオ分析から非構造化ビデオ分析への移行は,本稿で取り上げる課題をいくつも生み出している。
具体的には、非構造化設定におけるプレイヤーの教師なし識別と、任意の撮影角度によるバリエーションを示すために訓練されたモデルの一般化の2つの主要な問題を特定し、解決する。
最初の問題として,人物再識別機能を用いた時間的特徴集約アルゴリズムを提案する。
さらに,マルチモーダル画像翻訳モデルに基づくデータ拡張手法を提案し,トレーニングサンプルの出現時のバイアスを低減する。
実験結果から,提案手法は斜め角度ビデオのプレイヤー検索精度を 0.78 から 0.86 に向上させることがわかった。
また,テーブルテニスビデオにおけるラリー検出のためのf1スコアを,グローバルフレームレベルでは0.79から,プレイヤレベルでは0.89に改善した。
追加のビデオはhttps://ibm.biz/BdzeZA.comでご覧ください。
関連論文リスト
- SportsSloMo: A New Benchmark and Baselines for Human-centric Video Frame
Interpolation [11.198172694893927]
SportsSloMoは、130万本以上のビデオクリップと100万フレームの高解像度(720p)のスローモーションスポーツビデオがYouTubeからクロールされたベンチマークである。
ベンチマークでいくつかの最先端手法を再学習し、その結果、他のデータセットと比較して精度が低下していることを示す。
我々は,人間の認識する先行性を考慮した2つの損失項を導入し,汎視的セグメンテーションと人間のキーポイント検出に補助的監督を加える。
論文 参考訳(メタデータ) (2023-08-31T17:23:50Z) - Towards Active Learning for Action Spotting in Association Football
Videos [59.84375958757395]
フットボールビデオの分析は困難であり、微妙で多様な時間的パターンを特定する必要がある。
現在のアルゴリズムは、限られた注釈付きデータから学ぶ際に大きな課題に直面している。
次にアノテートすべき最も情報に富んだビデオサンプルを選択する能動的学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-09T11:50:41Z) - Sports Video Analysis on Large-Scale Data [10.24207108909385]
本稿では,スポーツビデオにおける自動機械記述のモデル化について検討する。
スポーツビデオ分析のためのNBAデータセット(NSVA)を提案する。
論文 参考訳(メタデータ) (2022-08-09T16:59:24Z) - P2ANet: A Dataset and Benchmark for Dense Action Detection from Table Tennis Match Broadcasting Videos [64.57435509822416]
この作品は、ワールド・テーブルテニス選手権とオリンピアードのプロの卓球試合の放送ビデオから収集された2,721本のビデオクリップで構成されている。
強調局所化と強調認識という2つのアクション検出問題を定式化する。
その結果、TheNameは依然として困難なタスクであり、ビデオからの高密度なアクション検出のための特別なベンチマークとして使用できることを確認した。
論文 参考訳(メタデータ) (2022-07-26T08:34:17Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - RSPNet: Relative Speed Perception for Unsupervised Video Representation
Learning [100.76672109782815]
本研究では,未ラベル映像のみから動作特徴と外観特徴の両方を学習するための教師なし映像表現学習について検討する。
動作と外観の両方をうまくモデル化するために、適切な自己指導タスクを構築することは困難である。
再生速度を知覚し、2つのビデオクリップ間の相対速度をラベルとして利用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-27T16:42:50Z) - Hybrid Dynamic-static Context-aware Attention Network for Action
Assessment in Long Videos [96.45804577283563]
本稿では,長期ビデオにおけるアクションアセスメントのための新しいハイブリットDynAmic-static Context-aware AttenTION NETwork(ACTION-NET)を提案する。
ビデオのダイナミックな情報を学習すると同時に,特定フレームにおける検出した選手の静的姿勢にも焦点をあてる。
2つのストリームの特徴を組み合わせることで、専門家が与えた地道的なスコアによって監督され、最終的なビデオスコアを後退させます。
論文 参考訳(メタデータ) (2020-08-13T15:51:42Z) - Event detection in coarsely annotated sports videos via parallel multi
receptive field 1D convolutions [14.30009544149561]
スポーツビデオ分析のような問題では、正確なフレームレベルのアノテーションと正確なイベント時間を得るのは難しい。
粗い注釈付きビデオにおけるイベント検出の課題を提案する。
本稿では,提案課題に対する多層時間畳み込みネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-04-13T19:51:25Z) - A Hybrid Approach for Tracking Individual Players in Broadcast Match
Videos [1.160208922584163]
本稿では,高速かつ高精度な選手追跡ソリューションを提案する。
このアプローチは、比較的控えめなハードウェアで同時に実行される複数のモデルを組み合わせる。
性能に関しては80fpsで高精細ビデオ(1920x1080)を処理できる。
論文 参考訳(メタデータ) (2020-03-06T15:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。