論文の概要: Towards Universal Soccer Video Understanding
- arxiv url: http://arxiv.org/abs/2412.01820v2
- Date: Wed, 04 Dec 2024 06:38:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 11:47:07.974982
- Title: Towards Universal Soccer Video Understanding
- Title(参考訳): ユニバーサルサッカービデオ理解に向けて
- Authors: Jiayuan Rao, Haoning Wu, Hao Jiang, Ya Zhang, Yanfeng Wang, Weidi Xie,
- Abstract要約: 本稿では,サッカー理解のための包括的枠組みを開発することを目的とする。
これまでで最大のマルチモーダルサッカーデータセットである SoccerReplay-1988 を紹介する。
サッカー分野における最初の視覚言語基礎モデルであるMatchVisionについて述べる。
- 参考スコア(独自算出の注目度): 58.889409980618396
- License:
- Abstract: As a globally celebrated sport, soccer has attracted widespread interest from fans all over the world. This paper aims to develop a comprehensive multi-modal framework for soccer video understanding. Specifically, we make the following contributions in this paper: (i) we introduce SoccerReplay-1988, the largest multi-modal soccer dataset to date, featuring videos and detailed annotations from 1,988 complete matches, with an automated annotation pipeline; (ii) we present the first visual-language foundation model in the soccer domain, MatchVision, which leverages spatiotemporal information across soccer videos and excels in various downstream tasks; (iii) we conduct extensive experiments and ablation studies on event classification, commentary generation, and multi-view foul recognition. MatchVision demonstrates state-of-the-art performance on all of them, substantially outperforming existing models, which highlights the superiority of our proposed data and model. We believe that this work will offer a standard paradigm for sports understanding research.
- Abstract(参考訳): 世界的に有名なスポーツとして、サッカーは世界中のファンから広く関心を集めている。
本稿では,サッカービデオ理解のための総合的マルチモーダルフレームワークを開発することを目的とする。
具体的には,本稿で次のような貢献をしている。
(i)これまでで最大のマルチモーダルサッカーデータセットである SoccerReplay-1988 を導入し,1,988の完全一致のビデオと詳細なアノテーションを自動アノテーションパイプラインで紹介した。
(II)サッカー分野における最初の視覚言語基礎モデルであるMatchVisionを提示する。
三 イベント分類、注釈生成、多視点ファウル認識に関する広範な実験及びアブレーション研究を行う。
MatchVisionは、これらすべてに対して最先端のパフォーマンスを示し、既存のモデルを大幅に上回り、提案したデータとモデルの優位性を強調します。
我々はこの研究がスポーツ理解研究の標準パラダイムとなると信じている。
関連論文リスト
- SMGDiff: Soccer Motion Generation using diffusion probabilistic models [44.54275548434197]
サッカーは世界的に有名なスポーツであり、ビデオゲームやVR/ARで重要な応用がある。
本稿では,リアルタイムかつユーザ制御可能なサッカー動作を生成するための新しい2段階フレームワークであるSMGDiffを紹介する。
我々のキーとなる考え方は、リアルタイムキャラクタ制御を強力な拡散ベース生成モデルと統合し、高品質で多様な出力運動を保証することである。
論文 参考訳(メタデータ) (2024-11-25T09:25:53Z) - Deep learning for action spotting in association football videos [64.10841325879996]
SoccerNetイニシアチブは毎年の課題を組織し、世界中の参加者が最先端のパフォーマンスを達成するために競う。
本稿では,スポーツにおけるアクションスポッティングの歴史を,2018年の課題の創出から,現在の研究・スポーツ産業における役割まで遡る。
論文 参考訳(メタデータ) (2024-10-02T07:56:15Z) - Deep Understanding of Soccer Match Videos [20.783415560412003]
サッカーは世界中で最も人気のあるスポーツの1つであり、主要な試合で頻繁に放送される。
本システムでは, サッカーボール, 選手, 審判などの重要な物体を検知できる。
また、プレイヤーとボールの動きを追跡し、プレイヤーの番号を認識し、シーンを分類し、ゴールキックのようなハイライトを識別する。
論文 参考訳(メタデータ) (2024-07-11T05:54:13Z) - MatchTime: Towards Automatic Soccer Game Commentary Generation [52.431010585268865]
観客の視聴体験を改善するために,自動サッカーゲーム解説モデルの構築を検討する。
まず、既存のデータセットでよく見られるビデオテキストのミスアライメントを観察し、49試合のタイムスタンプを手動でアノテートする。
第2に,既存のデータセットを自動的に修正・フィルタリングするマルチモーダル時間アライメントパイプラインを提案する。
第3に、キュレートされたデータセットに基づいて、MatchVoiceという自動コメント生成モデルをトレーニングします。
論文 参考訳(メタデータ) (2024-06-26T17:57:25Z) - A Multi-stage deep architecture for summary generation of soccer videos [11.41978608521222]
本稿では,音声メタデータとイベントメタデータの両方を利用して,サッカーの試合の要約を生成する手法を提案する。
その結果,提案手法は一致の動作を検出し,どの動作が要約に属するべきかを識別し,複数の候補要約を提案する。
論文 参考訳(メタデータ) (2022-05-02T07:26:35Z) - SoccerNet-Tracking: Multiple Object Tracking Dataset and Benchmark in
Soccer Videos [62.686484228479095]
本稿では,各30の200列からなる複数物体追跡のための新しいデータセットを提案する。
データセットは、バウンディングボックスとトラックレットIDで完全に注釈付けされている。
分析の結果,サッカービデオにおける複数の選手,審判,ボール追跡が解決されるには程遠いことがわかった。
論文 参考訳(メタデータ) (2022-04-14T12:22:12Z) - Feature Combination Meets Attention: Baidu Soccer Embeddings and
Transformer based Temporal Detection [3.7709686875144337]
本稿では,サッカー中継ビデオにおけるイベントの発生状況と発生状況を検出するための2段階のパラダイムを提案する。
具体的には,サッカーデータ上に複数のアクション認識モデルを微調整し,ハイレベルなセマンティックな特徴を抽出する。
このアプローチは、サッカーネットv2チャレンジにおける2つのタスク、すなわちアクションスポッティングとリプレイグラウンドにおいて、最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2021-06-28T08:00:21Z) - Temporally-Aware Feature Pooling for Action Spotting in Soccer
Broadcasts [86.56462654572813]
私たちは、サッカーの試合の主なアクションを一時的にローカライズするサッカー放送におけるアクションスポッティングの分析に焦点を当てています。
時間的知識を組み込んだNetVLAD++という,NetVLADに基づく新たな機能プーリング手法を提案する。
我々は最近の大規模データセット SoccerNet-v2 の方法論をトレーニングし、評価し、アクションスポッティングのための平均平均mAP 53.4% に達した。
論文 参考訳(メタデータ) (2021-04-14T11:09:03Z) - SoccerNet-v2: A Dataset and Benchmarks for Holistic Understanding of
Broadcast Soccer Videos [71.72665910128975]
SoccerNet-v2 は SoccerNet ビデオデータセット用の手動アノテーションの大規模なコーパスである。
SoccerNetの500の未トリミングサッカービデオの中で、約300万のアノテーションをリリースしています。
サッカーの領域における現在のタスクを拡張し、アクションスポッティング、カメラショットセグメンテーション、境界検出を含む。
論文 参考訳(メタデータ) (2020-11-26T16:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。