論文の概要: Domain-Guided Masked Autoencoders for Unique Player Identification
- arxiv url: http://arxiv.org/abs/2403.11328v1
- Date: Sun, 17 Mar 2024 20:14:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 17:27:03.157210
- Title: Domain-Guided Masked Autoencoders for Unique Player Identification
- Title(参考訳): ドメインガイドによる一意プレイヤー識別のためのマスクオートエンコーダ
- Authors: Bavesh Balaji, Jerrin Bright, Sirisha Rambhatla, Yuhao Chen, Alexander Wong, John Zelek, David A Clausi,
- Abstract要約: マスク付きオートエンコーダ (MAE) は, 従来の特徴抽出器よりも優れた代替手段として出現している。
人間の視覚に触発され、我々はd-MAEと呼ばれるMAEのための新しいドメイン誘導マスキングポリシーを考案した。
3つの大規模スポーツデータセットの実験を行った。
- 参考スコア(独自算出の注目度): 62.87054782745536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unique player identification is a fundamental module in vision-driven sports analytics. Identifying players from broadcast videos can aid with various downstream tasks such as player assessment, in-game analysis, and broadcast production. However, automatic detection of jersey numbers using deep features is challenging primarily due to: a) motion blur, b) low resolution video feed, and c) occlusions. With their recent success in various vision tasks, masked autoencoders (MAEs) have emerged as a superior alternative to conventional feature extractors. However, most MAEs simply zero-out image patches either randomly or focus on where to mask rather than how to mask. Motivated by human vision, we devise a novel domain-guided masking policy for MAEs termed d-MAE to facilitate robust feature extraction in the presence of motion blur for player identification. We further introduce a new spatio-temporal network leveraging our novel d-MAE for unique player identification. We conduct experiments on three large-scale sports datasets, including a curated baseball dataset, the SoccerNet dataset, and an in-house ice hockey dataset. We preprocess the datasets using an upgraded keyframe identification (KfID) module by focusing on frames containing jersey numbers. Additionally, we propose a keyframe-fusion technique to augment keyframes, preserving spatial and temporal context. Our spatio-temporal network showcases significant improvements, surpassing the current state-of-the-art by 8.58%, 4.29%, and 1.20% in the test set accuracies, respectively. Rigorous ablations highlight the effectiveness of our domain-guided masking approach and the refined KfID module, resulting in performance enhancements of 1.48% and 1.84% respectively, compared to original architectures.
- Abstract(参考訳): ユニークプレイヤー識別は、ビジョン駆動型スポーツ分析の基本的なモジュールである。
ブロードキャストビデオからプレイヤーを識別することは、プレイヤーアセスメント、ゲーム内分析、ブロードキャストプロダクションなどの様々な下流タスクに役立つ。
しかし、ディープ特徴を用いたジャージ番号の自動検出は、主に以下の理由により困難である。
訳語 ぼやけた;ぼやけた
b)低解像度ビデオフィード、及び
c) 閉塞症
近年、様々な視覚タスクに成功し、従来の特徴抽出器の代替としてマスク付きオートエンコーダ(MAE)が登場している。
しかし、ほとんどのMAEは、単純にゼロアウトイメージパッチをランダムに、あるいはマスクする方法ではなく、どこでマスクするかに焦点を当てている。
人間の視覚に触発され,プレイヤー識別のための動作ぼけの存在下でのロバストな特徴抽出を容易にするために,MAE が d-MAE と呼ぶ新しいドメイン誘導マスキングポリシーを考案した。
さらに,新たなD-MAEを利用した新たな時空間ネットワークを導入する。
我々は,野球のキュレートされたデータセット,サッカーネットのデータセット,社内アイスホッケーのデータセットを含む3つの大規模スポーツデータセットの実験を行った。
我々は、ジャージ番号を含むフレームに着目して、アップグレードされたキーフレーム識別(KfID)モジュールを使用してデータセットを前処理する。
さらに,鍵フレームを拡大し,空間的・時間的コンテキストを保存するキーフレーム融合手法を提案する。
我々の時空間ネットワークは、それぞれテストセットの精度の8.58%、4.29%、および1.20%を上回り、大幅な改善を示している。
厳密な改善は、ドメイン誘導マスキングアプローチと洗練されたKfIDモジュールの有効性を強調し、それぞれ1.48%と1.84%のパフォーマンス向上を実現した。
関連論文リスト
- MU-MAE: Multimodal Masked Autoencoders-Based One-Shot Learning [3.520960737058199]
マルチモーダルマスクオートエンコに基づくワンショット学習(Mu-MAE)を紹介する。
Mu-MAEは、マルチモーダルマスク付きオートエンコーダと、ウェアラブルセンサー用に調整された同期マスク戦略を統合している。
追加データを用いることなく、最大80.17%の精度で5方向のワンショット・マルチモーダル分類を実現している。
論文 参考訳(メタデータ) (2024-08-08T06:16:00Z) - Jersey Number Recognition using Keyframe Identification from
Low-Resolution Broadcast Videos [7.776923607006088]
プレイヤー識別は、プレイヤーアセスメント、ゲーム内分析、放送アセスメントなどの様々なタスクを可能にする、ビジョン駆動型サッカー分析において重要な要素である。
以前の手法では画像データでは成功したが、ほとんどのフレームではジャージ番号が見えない実世界のビデオデータに苦戦している。
本稿では,ジャージ数に関する重要な高レベル情報を含むフレームを抽出する,ロバストな下流識別モジュールを提案する。
論文 参考訳(メタデータ) (2023-09-12T14:43:50Z) - Multi-Stage Spatio-Temporal Aggregation Transformer for Video Person
Re-identification [78.08536797239893]
本稿では,2つの新しいプロキシ埋め込みモジュールを設計したMSTAT(Multi-Stage Space-Temporal Aggregation Transformer)を提案する。
MSTATは、属性関連、アイデンティティ関連、および属性関連情報をビデオクリップからエンコードする3つのステージから構成される。
MSTATは様々な標準ベンチマークで最先端の精度を達成できることを示す。
論文 参考訳(メタデータ) (2023-01-02T05:17:31Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - MAPLE: Masked Pseudo-Labeling autoEncoder for Semi-supervised Point
Cloud Action Recognition [160.49403075559158]
本稿では,Pseudo-Labeling autoEncoder (textbfMAPLE) フレームワークを提案する。
特に、MAPLEのバックボーンとして、新規で効率的なtextbfDecoupled textbfspatial-textbftemporal TranstextbfFormer(textbfDestFormer)を設計する。
MAPLEは3つの公開ベンチマークにおいて優れた結果を得て、MSR-Action3の精度を8.08%向上させる。
論文 参考訳(メタデータ) (2022-09-01T12:32:40Z) - Video Mask Transfiner for High-Quality Video Instance Segmentation [102.50936366583106]
Video Mask Transfiner (VMT) は、高効率なビデオトランス構造により、微細な高解像度機能を利用することができる。
当社のVMTアーキテクチャに基づいて,反復的トレーニングと自己補正による自動アノテーション改善アプローチを設計する。
我々はVMTとHQ-YTVISの最新の最先端手法、Youtube-VIS、OVIS、BDD100K MOTSを比較した。
論文 参考訳(メタデータ) (2022-07-28T11:13:37Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。