論文の概要: Temporally Precise Action Spotting in Soccer Videos Using Dense
Detection Anchors
- arxiv url: http://arxiv.org/abs/2205.10450v1
- Date: Fri, 20 May 2022 22:14:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 18:20:51.689775
- Title: Temporally Precise Action Spotting in Soccer Videos Using Dense
Detection Anchors
- Title(参考訳): ディエンス検出アンカーを用いたサッカー映像における時間的高精度なアクションスポッティング
- Authors: Jo\~ao V. B. Soares, Avijit Shah, Topojoy Biswas
- Abstract要約: 本稿では,ビデオ中の時間的高精度な動作スポッティングのモデルを提案する。このモデルでは,検出アンカーの集合を用いて,検出信頼度と各アンカーの微細な時間的変位を推定する。
我々は,このタイプのサッカービデオデータセットとしては最大であり,時間的ローカライゼーションの大幅な向上を図っている。
- 参考スコア(独自算出の注目度): 1.6114012813668934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a model for temporally precise action spotting in videos, which
uses a dense set of detection anchors, predicting a detection confidence and
corresponding fine-grained temporal displacement for each anchor. We experiment
with two trunk architectures, both of which are able to incorporate large
temporal contexts while preserving the smaller-scale features required for
precise localization: a one-dimensional version of a u-net, and a Transformer
encoder (TE). We also suggest best practices for training models of this kind,
by applying Sharpness-Aware Minimization (SAM) and mixup data augmentation. We
achieve a new state-of-the-art on SoccerNet-v2, the largest soccer video
dataset of its kind, with marked improvements in temporal localization.
Additionally, our ablations show: the importance of predicting the temporal
displacements; the trade-offs between the u-net and TE trunks; and the benefits
of training with SAM and mixup.
- Abstract(参考訳): 本稿では,ビデオ中の時間的高精度な動作スポッティングのモデルを提案する。このモデルでは,検出アンカーの集合を用いて,検出信頼度と各アンカーの微細な時間的変位を推定する。
U-netの1次元バージョンと Transformer Encoder (TE) の2つのトランクアーキテクチャを実験し、どちらも大きな時間的コンテキストを組み込むとともに、正確なローカライゼーションに必要な小さな特徴を保存している。
また,このようなモデルのトレーニングには,シャープネス・アウェア・ミニミゼーション(sam)とミックスアップデータ拡張を適用することでベストプラクティスを提案する。
我々は,その種のサッカービデオデータセットである soccernet-v2 について,時間的局所化を著しく改善した新しい最新技術を実現する。
さらに, 時間的変位の予測の重要性, u-net と TE トランク間のトレードオフ, SAM とmixup によるトレーニングのメリットが示唆された。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Multi-step Temporal Modeling for UAV Tracking [14.687636301587045]
MT-Track(MT-Track)は,UAV追跡の効率化を目的とした,効率的な多段階時間モデリングフレームワークである。
我々はテンプレートと検索領域の特徴間の相互作用を動的に評価するユニークな時間相関モジュールを公表する。
トラッキングシーケンスにおける時間的知識をモデル化することにより,過去のフレームと現在のフレームの相関マップを洗練するための相互変換モジュールを提案する。
論文 参考訳(メタデータ) (2024-03-07T09:48:13Z) - Distillation Enhanced Time Series Forecasting Network with Momentum Contrastive Learning [7.4106801792345705]
長周期時系列予測のための革新的蒸留強化フレームワークであるDE-TSMCLを提案する。
具体的には、タイムスタンプをマスクするかどうかを適応的に学習する学習可能なデータ拡張機構を設計する。
そこで本研究では,時系列のサンプル間および時間内相関を探索するために,モーメントを更新したコントラスト学習タスクを提案する。
複数のタスクからモデル損失を発生させることで、下流予測タスクの効果的な表現を学習することができる。
論文 参考訳(メタデータ) (2024-01-31T12:52:10Z) - Unsupervised Continual Semantic Adaptation through Neural Rendering [32.099350613956716]
セマンティックセグメンテーションの課題に対する連続的マルチシーン適応について検討する。
本稿では,セグメンテーションモデルの予測を融合させることで,シーン毎にセマンティック・NeRFネットワークを訓練する。
我々は,Voxelベースのベースラインと最先端の教師なしドメイン適応手法の両方より優れているScanNetに対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-11-25T09:31:41Z) - Spotting Temporally Precise, Fine-Grained Events in Video [23.731838969934206]
ビデオ中に時間的に正確できめ細かなイベントを見つけるタスクを導入する。
モデルは、フルタイムのアクションスケールについてグローバルに推論し、微妙なフレーム間の外観と動きの違いを特定するために、ローカルで行う必要がある。
E2E-Spotは、精密なスポッティングタスクでよく機能し、1つのGPUで迅速にトレーニングできる、コンパクトでエンドツーエンドのモデルである。
論文 参考訳(メタデータ) (2022-07-20T22:15:07Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z) - RMS-Net: Regression and Masking for Soccer Event Spotting [52.742046866220484]
イベントラベルとその時間的オフセットを同時に予測できる,軽量でモジュール化されたアクションスポッティングネットワークを開発した。
SoccerNetデータセットでテストし、標準機能を使用して、完全な提案は3平均mAPポイントで現在の状態を超えます。
論文 参考訳(メタデータ) (2021-02-15T16:04:18Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。