論文の概要: Deep Learning for Sports Video Event Detection: Tasks, Datasets, Methods, and Challenges
- arxiv url: http://arxiv.org/abs/2505.03991v3
- Date: Fri, 10 Oct 2025 00:32:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:45.302525
- Title: Deep Learning for Sports Video Event Detection: Tasks, Datasets, Methods, and Challenges
- Title(参考訳): スポーツビデオイベント検出のための深層学習:課題,データセット,方法,課題
- Authors: Hao Xu, Arbind Agrahari Baniya, Sam Well, Mohamed Reda Bouadjenek, Richard Dazeley, Sunil Aryal,
- Abstract要約: ビデオイベント検出は現代のスポーツ分析の基盤となり、自動パフォーマンス評価、コンテンツ生成、戦術的意思決定の動力となっている。
近年のディープラーニングの進歩は、代表的なタイムスタンプを識別するアクションスポッティング(AS)や、イベントの正確なフレームをピンポイントする精密イベントスポッティング(PES)といった、関連するタスクの進展を促している。
- 参考スコア(独自算出の注目度): 12.534976311190748
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Video event detection has become a cornerstone of modern sports analytics, powering automated performance evaluation, content generation, and tactical decision-making. Recent advances in deep learning have driven progress in related tasks such as Temporal Action Localization (TAL), which detects extended action segments; Action Spotting (AS), which identifies a representative timestamp; and Precise Event Spotting (PES), which pinpoints the exact frame of an event. Although closely connected, their subtle differences often blur the boundaries between them, leading to confusion in both research and practical applications. Furthermore, prior surveys either address generic video event detection or broader sports video tasks, but largely overlook the unique temporal granularity and domain-specific challenges of event spotting. In addition, most existing sports video surveys focus on elite-level competitions while neglecting the wider community of everyday practitioners. This survey addresses these gaps by: (i) clearly delineating TAL, AS, and PES and their respective use cases; (ii) introducing a structured taxonomy of state of the art approaches including temporal modeling strategies, multimodal frameworks, and data-efficient pipelines tailored for AS and PES; and (iii) critically assessing benchmark datasets and evaluation protocols, highlighting limitations such as reliance on broadcast quality footage and metrics that over reward permissive multilabel predictions. By synthesizing current research and exposing open challenges, this work provides a comprehensive foundation for developing temporally precise, generalizable, and practically deployable sports event detection systems for both the research and industry communities.
- Abstract(参考訳): ビデオイベント検出は現代のスポーツ分析の基盤となり、自動パフォーマンス評価、コンテンツ生成、戦術的意思決定の動力となっている。
近年のディープラーニングの進歩は、拡張アクションセグメントを検出するTemporal Action Localization(TAL)や、代表的なタイムスタンプを識別するAction Spotting(AS)、イベントの正確なフレームをピンポイントするPrecise Event Spotting(PES)といった、関連するタスクの進展を促している。
密接な関係にあるものの、それらの微妙な違いはしばしばそれらの境界を曖昧にし、研究と実践の双方で混乱を招いた。
さらに、以前の調査では、一般的なビデオイベントの検出や、より広範なスポーツビデオタスクに対処するが、イベントスポッティングの時間的粒度とドメイン固有の課題を概ね見落としている。
さらに、既存のスポーツビデオ調査のほとんどはエリートレベルの競技に焦点を合わせ、日常的な実践者の広いコミュニティを無視している。
この調査は、これらのギャップに以下のように対処する。
i) tal, AS, PES及びそれらの各使用例を明確に記述すること。
2時相モデリング戦略、マルチモーダルフレームワーク、ASやPSSに適したデータ効率パイプラインを含む最先端アプローチの構造化分類を導入すること。
3) ベンチマークデータセットと評価プロトコルを批判的に評価し,放送品質の映像への依存や,報奨的マルチラベル予測を超越した指標などの制限を強調した。
この研究は、現在の研究を合成し、オープンな課題を明らかにすることで、研究コミュニティと産業コミュニティの両方に対して、時間的に正確で、一般化可能で、実用的に展開可能なスポーツイベント検出システムを開発するための総合的な基盤を提供する。
関連論文リスト
- Velocity Completion Task and Method for Event-based Player Positional Data in Soccer [0.9002260638342727]
イベントベースの位置データは、速度などの重要な特性を計算するのに必要な連続的な時間情報を欠いている。
本稿では,チームスポーツのイベントベース位置データのみを用いて,全てのエージェントの速度を同時に達成する手法を提案する。
論文 参考訳(メタデータ) (2025-05-22T04:01:49Z) - Grounding-MD: Grounded Video-language Pre-training for Open-World Moment Detection [67.70328796057466]
Grounding-MDは、オープンワールドのモーメント検出に適した、革新的なビデオ言語事前学習フレームワークである。
我々のフレームワークは、構造化されたプロンプト機構を通じて、任意の数のオープンな自然言語クエリを組み込む。
Grounding-MDは特異なセマンティック表現学習能力を示し、多種多様な複雑なクエリ条件を効果的に処理する。
論文 参考訳(メタデータ) (2025-04-20T09:54:25Z) - OpenSTARLab: Open Approach for Spatio-Temporal Agent Data Analysis in Soccer [0.9207076627649226]
スポーツアナリティクスは、より専門的で洗練されたものになり、詳細なパフォーマンスデータが利用できるようになった。
サッカーでは、イベントと追跡データの効果的な利用は、ゲームのダイナミクスを捕捉し分析するための基本となる。
本稿では,スポーツにおける時間的エージェントデータ分析の民主化を目的としたオープンソースフレームワークであるOpenSTARLabを提案する。
論文 参考訳(メタデータ) (2025-02-05T00:14:18Z) - About Time: Advances, Challenges, and Outlooks of Action Understanding [57.76390141287026]
この調査は、様々なタスクにおけるユニモーダルおよびマルチモーダルな行動理解の進歩を包括的にレビューする。
我々は,現在普及している課題,広く採用されているデータセットの概要,そして最近の進歩を重視したセミナー作品の調査に焦点をあてる。
論文 参考訳(メタデータ) (2024-11-22T18:09:27Z) - WearableMil: An End-to-End Framework for Military Activity Recognition and Performance Monitoring [7.130450173185638]
本稿では、軍事訓練におけるウェアラブルデータからの活動の事前処理、分析、認識のためのエンドツーエンドフレームワークを提案する。
textitGarmin-55スマートウォッチを6ヶ月以上、1500万分以上使用した兵士135人のデータを使っています。
我々のフレームワークは、生理学的にインフォームドされた方法で欠落したデータに対処し、未知の睡眠状態を40.38%から3.66%に減らした。
論文 参考訳(メタデータ) (2024-10-07T19:35:15Z) - Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文 参考訳(メタデータ) (2024-10-07T17:59:48Z) - Deep learning for action spotting in association football videos [64.10841325879996]
SoccerNetイニシアチブは毎年の課題を組織し、世界中の参加者が最先端のパフォーマンスを達成するために競う。
本稿では,スポーツにおけるアクションスポッティングの歴史を,2018年の課題の創出から,現在の研究・スポーツ産業における役割まで遡る。
論文 参考訳(メタデータ) (2024-10-02T07:56:15Z) - A Comprehensive Methodological Survey of Human Activity Recognition Across Divers Data Modalities [2.916558661202724]
人間活動認識(HAR)システムは、人間の行動を理解し、それぞれの行動にラベルを割り当てることを目的としている。
HARは、RGB画像やビデオ、スケルトン、深度、赤外線、ポイントクラウド、イベントストリーム、オーディオ、アクセラレーション、レーダー信号など、さまざまなデータモダリティを利用することができる。
本稿は,2014年から2024年までのHARの最新の進歩に関する包括的調査である。
論文 参考訳(メタデータ) (2024-09-15T10:04:44Z) - OSL-ActionSpotting: A Unified Library for Action Spotting in Sports Videos [56.393522913188704]
我々は,スポーツビデオ分析における研究と応用の合理化のために,さまざまなアクションスポッティングアルゴリズムを統合するPythonライブラリであるOSL-ActionSpottingを紹介する。
我々はOSL-ActionSpottingに3つの基本アクションスポッティング手法を統合することに成功した。
論文 参考訳(メタデータ) (2024-07-01T13:17:37Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - Event-based Simultaneous Localization and Mapping: A Comprehensive Survey [52.73728442921428]
ローカライゼーションとマッピングタスクのための非同期および不規則なイベントストリームの利点を利用する、イベントベースのvSLAMアルゴリズムのレビュー。
Paperは、イベントベースのvSLAMメソッドを、特徴ベース、ダイレクト、モーション補償、ディープラーニングの4つのカテゴリに分類する。
論文 参考訳(メタデータ) (2023-04-19T16:21:14Z) - Towards Active Learning for Action Spotting in Association Football
Videos [59.84375958757395]
フットボールビデオの分析は困難であり、微妙で多様な時間的パターンを特定する必要がある。
現在のアルゴリズムは、限られた注釈付きデータから学ぶ際に大きな課題に直面している。
次にアノテートすべき最も情報に富んだビデオサンプルを選択する能動的学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-09T11:50:41Z) - Reliable Shot Identification for Complex Event Detection via
Visual-Semantic Embedding [72.9370352430965]
本稿では,映像中の事象検出のための視覚的意味的誘導損失法を提案する。
カリキュラム学習に動機付け,高い信頼性の事例で分類器の訓練を開始するために,負の弾性正規化項を導入する。
提案する非ネット正規化問題の解法として,代替最適化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-12T11:46:56Z) - Toyota Smarthome Untrimmed: Real-World Untrimmed Videos for Activity
Detection [6.682959425576476]
私たちは、Toyota Smarthome Untrimmedという、いくつかの現実的な課題を特徴とする、新たな毎日のデータセットを導入しました。
このデータセットには、基本的な、複合的なアクティビティや、オブジェクトとのインタラクションを含むアクティビティを含む、密集したアノテーションが含まれている。
本研究では,現在の最先端手法が,TSデータセット上での良好な性能を達成できないことを示す。
本稿では,我々のデータセットが提供する新たな課題に取り組むために,アクティビティ検出のための新しいベースライン手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T13:47:16Z) - ZSTAD: Zero-Shot Temporal Activity Detection [107.63759089583382]
本研究では,ゼロショット時間的活動検出(ZSTAD)と呼ばれる新たなタスク設定を提案する。
このソリューションのアーキテクチャとして,R-C3Dに基づくエンドツーエンドのディープネットワークを設計する。
THUMOS14とCharadesデータセットの両方の実験は、目に見えない活動を検出するという点で有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-03-12T02:40:36Z) - Unsupervised and Interpretable Domain Adaptation to Rapidly Filter
Tweets for Emergency Services [18.57009530004948]
本稿では,TRECインシデントストリームの公開データセットを用いて,危機時に関連するツイートを分類する新しい手法を提案する。
私たちは各タスクに専用の注意層を使用して、モデル解釈可能性を提供しています。
新型コロナウイルスのパンデミックに対するユースケースを提供することで、我々の仕事の実践的な意味を示す。
論文 参考訳(メタデータ) (2020-03-04T06:40:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。