論文の概要: Multi-Modal Soccer Scene Analysis with Masked Pre-Training
- arxiv url: http://arxiv.org/abs/2512.19528v1
- Date: Mon, 22 Dec 2025 16:18:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.828397
- Title: Multi-Modal Soccer Scene Analysis with Masked Pre-Training
- Title(参考訳): Masked Pre-Trainingによるマルチモーダルサッカーシーンの解析
- Authors: Marc Peral, Guillem Capellera, Luis Ferraz, Antonio Rubio, Antonio Agudo,
- Abstract要約: 戦術カメラ映像からサッカーシーンを解析するためのマルチモーダルアーキテクチャを提案する。
我々のソリューションは3つの異なる入力モダリティを統一されたフレームワークに統合する。
大規模データセットにアプローチの有効性を示す。
- 参考スコア(独自算出の注目度): 16.853768247588743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work we propose a multi-modal architecture for analyzing soccer scenes from tactical camera footage, with a focus on three core tasks: ball trajectory inference, ball state classification, and ball possessor identification. To this end, our solution integrates three distinct input modalities (player trajectories, player types and image crops of individual players) into a unified framework that processes spatial and temporal dynamics using a cascade of sociotemporal transformer blocks. Unlike prior methods, which rely heavily on accurate ball tracking or handcrafted heuristics, our approach infers the ball trajectory without direct access to its past or future positions, and robustly identifies the ball state and ball possessor under noisy or occluded conditions from real top league matches. We also introduce CropDrop, a modality-specific masking pre-training strategy that prevents over-reliance on image features and encourages the model to rely on cross-modal patterns during pre-training. We show the effectiveness of our approach on a large-scale dataset providing substantial improvements over state-of-the-art baselines in all tasks. Our results highlight the benefits of combining structured and visual cues in a transformer-based architecture, and the importance of realistic masking strategies in multi-modal learning.
- Abstract(参考訳): 本研究では,球の軌跡推定,球状態分類,球の保持者識別という3つのコアタスクに着目し,戦術カメラ映像からサッカーシーンを分析するマルチモーダルアーキテクチャを提案する。
この目的のために,我々は,3つの異なる入力モダリティ(プレイヤ・トラジェクトリ,プレーヤ・タイプ,イメージクロップ)を,空間的・時間的ダイナミックスを処理する統合フレームワークに統合した。
ボールトラッキングやハンドクラフトによるヒューリスティックスに大きく依存する従来の手法とは異なり、我々の手法は過去の位置や将来の位置に直接アクセスすることなくボール軌跡を推定し、実際のトップリーグの試合からノイズや閉塞状態下でのボール状態とボール保持者をしっかりと同定する。
また,CropDropは,画像特徴の過度な依存を防止し,事前学習中にクロスモーダルパターンに依存するモデルを奨励する,モダリティ固有のマスキング事前学習戦略である。
すべてのタスクにおいて,最先端のベースラインよりも大幅に改善された大規模データセットに対するアプローチの有効性を示す。
本研究は,トランスフォーマーアーキテクチャにおける構造化と視覚の組み合わせの利点と,マルチモーダル学習における現実的なマスキング戦略の重要性を強調した。
関連論文リスト
- SoccerMaster: A Vision Foundation Model for Soccer Understanding [50.88251190999469]
サッカーの理解は、最近、そのドメイン固有の複雑さとユニークな課題のために、研究の関心が高まっている。
本研究の目的は,微粒な知覚から意味論的推論に至るまで,多様なサッカー視覚理解タスクを扱う統一モデルを提案することである。
1つのフレームワーク内で多様な理解タスクを統一する、サッカー特有のビジョン基盤モデルである、サッカーマスターを提示する。
論文 参考訳(メタデータ) (2025-12-11T18:03:30Z) - CourtMotion: Learning Event-Driven Motion Representations from Skeletal Data for Basketball [45.88028371034407]
CourtMotionはプロバスケットボールにおけるゲームイベントやプレーの分析と予測のためのテンポラリなモデリングフレームワークである。
2段階のアプローチでは、まず、グラフニューラルネットワークを通じて骨格追跡データを処理し、ニュアンスした動きパターンをキャプチャします。
選手の動きを、パス、ショット、ステルスなどのバスケットボールイベントに明示的に結びつけるイベントプロジェクションヘッドを導入し、物理的な動きパターンと目的を関連付けるためにモデルを訓練する。
論文 参考訳(メタデータ) (2025-12-01T09:58:24Z) - FOOTPASS: A Multi-Modal Multi-Agent Tactical Context Dataset for Play-by-Play Action Spotting in Soccer Broadcast Videos [1.264619835497501]
サッカーデータセット(FOOTPASS)におけるFtertovision Play-by-Play Spot Actiontingを紹介する。
これは、マルチエージェントの戦術的文脈において、サッカーの試合全体に対してプレーバイプレイのアクションスポッティングを行うための最初のベンチマークである。
コンピュータビジョンタスクからの出力とサッカーの事前知識の両方を活用する、プレイヤー中心のアクションスポッティングの手法の開発を可能にする。
論文 参考訳(メタデータ) (2025-11-20T09:42:28Z) - Sports-Traj: A Unified Trajectory Generation Model for Multi-Agent Movement in Sports [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを紹介する。
バスケットボールU,サッカーU,サッカーUの3つの実践的スポーツデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - Ball Trajectory Inference from Multi-Agent Sports Contexts Using Set
Transformer and Hierarchical Bi-LSTM [18.884300680050316]
本稿では,ボールトラッキングに代わる費用対効果として,選手軌道からの球軌道推定フレームワークを提案する。
実験の結果,本モデルでは,自然かつ正確な軌道と,許容可能な球の保持を同時に行うことができることがわかった。
提案するフレームワークの実用的応用には,トラジェクティブ・インプットの欠如,半自動パスアノテーション,マッチブロードキャストのための自動ズームイン,保持可能な性能指標の算出などがある。
論文 参考訳(メタデータ) (2023-06-14T02:19:59Z) - Unifying Flow, Stereo and Depth Estimation [121.54066319299261]
本稿では3つの動作と3次元知覚タスクのための統一的な定式化とモデルを提案する。
これら3つのタスクを、統一された高密度対応マッチング問題として定式化する。
我々のモデルは、モデルアーキテクチャとパラメータがタスク間で共有されているため、自然にクロスタスク転送を可能にします。
論文 参考訳(メタデータ) (2022-11-10T18:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。