論文の概要: SoccerMaster: A Vision Foundation Model for Soccer Understanding
- arxiv url: http://arxiv.org/abs/2512.11016v1
- Date: Thu, 11 Dec 2025 18:03:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.526137
- Title: SoccerMaster: A Vision Foundation Model for Soccer Understanding
- Title(参考訳): SoccerMaster: サッカー理解のためのビジョンファウンデーションモデル
- Authors: Haolin Yang, Jiayuan Rao, Haoning Wu, Weidi Xie,
- Abstract要約: サッカーの理解は、最近、そのドメイン固有の複雑さとユニークな課題のために、研究の関心が高まっている。
本研究の目的は,微粒な知覚から意味論的推論に至るまで,多様なサッカー視覚理解タスクを扱う統一モデルを提案することである。
1つのフレームワーク内で多様な理解タスクを統一する、サッカー特有のビジョン基盤モデルである、サッカーマスターを提示する。
- 参考スコア(独自算出の注目度): 50.88251190999469
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Soccer understanding has recently garnered growing research interest due to its domain-specific complexity and unique challenges. Unlike prior works that typically rely on isolated, task-specific expert models, this work aims to propose a unified model to handle diverse soccer visual understanding tasks, ranging from fine-grained perception (e.g., athlete detection) to semantic reasoning (e.g., event classification). Specifically, our contributions are threefold: (i) we present SoccerMaster, the first soccer-specific vision foundation model that unifies diverse understanding tasks within a single framework via supervised multi-task pretraining; (ii) we develop an automated data curation pipeline to generate scalable spatial annotations, and integrate them with various existing soccer video datasets to construct SoccerFactory, a comprehensive pretraining data resource; and (iii) we conduct extensive evaluations demonstrating that SoccerMaster consistently outperforms task-specific expert models across diverse downstream tasks, highlighting its breadth and superiority. The data, code, and model will be publicly available.
- Abstract(参考訳): サッカーの理解は、最近、そのドメイン固有の複雑さとユニークな課題のために、研究の関心が高まっている。
通常、独立したタスク固有のエキスパートモデルに依存する以前の研究とは異なり、この研究は、きめ細かい知覚(例えば、アスリートの検出)から意味論的推論(例えば、イベント分類)まで、様々なサッカー視覚的タスクを扱う統一モデルを提案することを目的としている。
特に、私たちの貢献は3倍です。
i) 教師付きマルチタスク事前学習を通じて,単一のフレームワーク内で多様な理解タスクを統一する,サッカー固有の視覚基盤モデルであるFocoMasterを提示する。
(II)スケーラブルな空間アノテーションを生成するための自動データキュレーションパイプラインを開発し、既存のサッカービデオデータセットと統合して、総合的な事前学習データリソースであるFofoFactoryを構築する。
3) 幅広い評価を行い, さまざまな下流タスクにおいて, SoccerMasterがタスク固有のエキスパートモデルより一貫して優れており, その幅と優越性を強調していることを示す。
データ、コード、モデルは公開されます。
関連論文リスト
- SportR: A Benchmark for Multimodal Large Language Model Reasoning in Sports [21.410115837645318]
SportRは、スポーツインテリジェンスに必要な基本的な理由に基づいてMLLMを訓練し、評価するために設計された最初のマルチスポーツ大規模ベンチマークである。
私たちのベンチマークでは,5,017枚の画像と2,101本のビデオのデータセットが提供されている。
罰則の決定や戦術の説明など,多段階の推論を必要とする最も先進的なタスクに対して,我々は7,118の高品質な人間による思考の連鎖(Chain of Thought)アノテーションを提供する。
論文 参考訳(メタデータ) (2025-11-09T18:55:20Z) - Multi-Agent System for Comprehensive Soccer Understanding [74.84770843553845]
選手,チーム,審判,会場に関する豊富なドメイン知識を統合した,最初の大規模マルチモーダルサッカー知識基盤である SoccerWiki を構築した。
サッカーに特化している最大かつ総合的なベンチマークである SoccerBench では、13の異なるタスクにまたがる10Kのマルチモーダル(テキスト、画像、ビデオ)のマルチチョイスQAペアについて紹介する。
複雑なサッカー質問を協調推論によって分解する新しいマルチエージェントシステムである SoccerAgent を紹介する。
論文 参考訳(メタデータ) (2025-05-06T17:59:31Z) - Towards Universal Soccer Video Understanding [58.889409980618396]
本稿では,サッカー理解のための総合的マルチモーダルフレームワークを提案する。
これまでで最大のマルチモーダルサッカーデータセットである SoccerReplay-1988 を紹介する。
サッカービデオにまたがる時間的情報を活用し、様々な下流タスクに優れる高度なサッカー特化視覚情報であるMatchVisionを提示する。
論文 参考訳(メタデータ) (2024-12-02T18:58:04Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。