Fugu-MT 論文翻訳(概要): Temporally Precise Action Spotting in Soccer Videos Using Dense Detection Anchors

論文の概要: Temporally Precise Action Spotting in Soccer Videos Using Dense Detection Anchors

arxiv url: http://arxiv.org/abs/2205.10450v1
Date: Fri, 20 May 2022 22:14:02 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-24 18:20:51.689775
Title: Temporally Precise Action Spotting in Soccer Videos Using Dense Detection Anchors
Title（参考訳）: ディエンス検出アンカーを用いたサッカー映像における時間的高精度なアクションスポッティング
Authors: Jo\~ao V. B. Soares, Avijit Shah, Topojoy Biswas
Abstract要約: 本稿では,ビデオ中の時間的高精度な動作スポッティングのモデルを提案する。このモデルでは,検出アンカーの集合を用いて,検出信頼度と各アンカーの微細な時間的変位を推定する。我々は,このタイプのサッカービデオデータセットとしては最大であり,時間的ローカライゼーションの大幅な向上を図っている。
参考スコア（独自算出の注目度）: 1.6114012813668934
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a model for temporally precise action spotting in videos, which uses a dense set of detection anchors, predicting a detection confidence and corresponding fine-grained temporal displacement for each anchor. We experiment with two trunk architectures, both of which are able to incorporate large temporal contexts while preserving the smaller-scale features required for precise localization: a one-dimensional version of a u-net, and a Transformer encoder (TE). We also suggest best practices for training models of this kind, by applying Sharpness-Aware Minimization (SAM) and mixup data augmentation. We achieve a new state-of-the-art on SoccerNet-v2, the largest soccer video dataset of its kind, with marked improvements in temporal localization. Additionally, our ablations show: the importance of predicting the temporal displacements; the trade-offs between the u-net and TE trunks; and the benefits of training with SAM and mixup.
Abstract（参考訳）: 本稿では,ビデオ中の時間的高精度な動作スポッティングのモデルを提案する。このモデルでは,検出アンカーの集合を用いて,検出信頼度と各アンカーの微細な時間的変位を推定する。 U-netの1次元バージョンと Transformer Encoder (TE) の2つのトランクアーキテクチャを実験し、どちらも大きな時間的コンテキストを組み込むとともに、正確なローカライゼーションに必要な小さな特徴を保存している。また,このようなモデルのトレーニングには,シャープネス・アウェア・ミニミゼーション(sam)とミックスアップデータ拡張を適用することでベストプラクティスを提案する。我々は,その種のサッカービデオデータセットである soccernet-v2 について,時間的局所化を著しく改善した新しい最新技術を実現する。さらに, 時間的変位の予測の重要性, u-net と TE トランク間のトレードオフ, SAM とmixup によるトレーニングのメリットが示唆された。

関連論文リスト

EVA02-AT: Egocentric Video-Language Understanding with Spatial-Temporal Rotary Positional Embeddings and Symmetric Optimization [17.622013322533423]
EVA02-ATは、エゴセントリックなビデオ理解タスクに適した、EVA02ベースのビデオ言語基盤モデルのスイートである。 EVA02-ATは、画像ベースのCLIPモデルをシングルステージプレトレーニングを介して、統一ビデオエンコーダに効率的に転送する。我々は,Symmetric Multi-Similarity(SMS)損失と,正と負のペアに対してすべてのソフトラベルを前進させる新しいトレーニングフレームワークを導入する。
論文参考訳（メタデータ） (2025-06-17T09:51:51Z)
FDDet: Frequency-Decoupling for Boundary Refinement in Temporal Action Detection [4.015022008487465]
大規模な事前訓練されたビデオエンコーダは、背景の乱雑さと無関係なセマンティクスを導入し、コンテキストの混乱と境界に繋がる。本稿では,事前学習したモデルから得られた雑音のセマンティクスをフィルタリングすることで,行動識別性を向上させる周波数対応デカップリングネットワークを提案する。本手法は時間的行動検出ベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2025-04-01T10:57:37Z)
SpecDM: Hyperspectral Dataset Synthesis with Pixel-level Semantic Annotations [27.391859339238906]
本稿では,画素レベルのアノテーションを用いたハイパースペクトル画像の合成における生成拡散モデルの可能性について検討する。私たちの知る限りでは、アノテーションで高次元のHSIを生成するのはこれが初めてです。我々は、セマンティックセグメンテーションと変化検出の2つの最も広く使われている密集予測タスクを選択し、これらのタスクに適したデータセットを生成する。
論文参考訳（メタデータ） (2025-02-24T11:13:37Z)
SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。 10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文参考訳（メタデータ） (2024-07-22T08:04:09Z)
Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文参考訳（メタデータ） (2024-07-02T09:11:17Z)
Multi-step Temporal Modeling for UAV Tracking [14.687636301587045]
MT-Track(MT-Track)は,UAV追跡の効率化を目的とした,効率的な多段階時間モデリングフレームワークである。我々はテンプレートと検索領域の特徴間の相互作用を動的に評価するユニークな時間相関モジュールを公表する。トラッキングシーケンスにおける時間的知識をモデル化することにより,過去のフレームと現在のフレームの相関マップを洗練するための相互変換モジュールを提案する。
論文参考訳（メタデータ） (2024-03-07T09:48:13Z)
Distillation Enhanced Time Series Forecasting Network with Momentum Contrastive Learning [7.4106801792345705]
長周期時系列予測のための革新的蒸留強化フレームワークであるDE-TSMCLを提案する。具体的には、タイムスタンプをマスクするかどうかを適応的に学習する学習可能なデータ拡張機構を設計する。そこで本研究では,時系列のサンプル間および時間内相関を探索するために,モーメントを更新したコントラスト学習タスクを提案する。複数のタスクからモデル損失を発生させることで、下流予測タスクの効果的な表現を学習することができる。
論文参考訳（メタデータ） (2024-01-31T12:52:10Z)
Unsupervised Continual Semantic Adaptation through Neural Rendering [32.099350613956716]
セマンティックセグメンテーションの課題に対する連続的マルチシーン適応について検討する。本稿では,セグメンテーションモデルの予測を融合させることで,シーン毎にセマンティック・NeRFネットワークを訓練する。我々は,Voxelベースのベースラインと最先端の教師なしドメイン適応手法の両方より優れているScanNetに対するアプローチを評価した。
論文参考訳（メタデータ） (2022-11-25T09:31:41Z)
Spotting Temporally Precise, Fine-Grained Events in Video [23.731838969934206]
ビデオ中に時間的に正確できめ細かなイベントを見つけるタスクを導入する。モデルは、フルタイムのアクションスケールについてグローバルに推論し、微妙なフレーム間の外観と動きの違いを特定するために、ローカルで行う必要がある。 E2E-Spotは、精密なスポッティングタスクでよく機能し、1つのGPUで迅速にトレーニングできる、コンパクトでエンドツーエンドのモデルである。
論文参考訳（メタデータ） (2022-07-20T22:15:07Z)
Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。デュアルエンコーダは検索スケールとして魅力的です視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文参考訳（メタデータ） (2021-03-30T17:57:08Z)
RMS-Net: Regression and Masking for Soccer Event Spotting [52.742046866220484]
イベントラベルとその時間的オフセットを同時に予測できる,軽量でモジュール化されたアクションスポッティングネットワークを開発した。 SoccerNetデータセットでテストし、標準機能を使用して、完全な提案は3平均mAPポイントで現在の状態を超えます。
論文参考訳（メタデータ） (2021-02-15T16:04:18Z)
DS-Net: Dynamic Spatiotemporal Network for Video Salient Object Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文参考訳（メタデータ） (2020-12-09T06:42:30Z)
Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文参考訳（メタデータ） (2020-11-26T04:04:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。