論文の概要: SoccerLens: Grounded Soccer Video Understanding Beyond Accuracy
- arxiv url: http://arxiv.org/abs/2605.09598v2
- Date: Tue, 12 May 2026 09:02:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 18:21:07.037489
- Title: SoccerLens: Grounded Soccer Video Understanding Beyond Accuracy
- Title(参考訳): SoccerLens:正確性を超えたサッカービデオ
- Authors: Ismael Elsharkawi, Ahmed Sait, Silvio Giancola, Bernard Ghanem, Hossam Sharara, Abdelrahman Eldesokey,
- Abstract要約: ビジョン言語モデル(VLM)は近年,サッカービデオ理解において大きな可能性を示している。
既存の評価プロトコルは分類精度に重点を置いており、視覚的グラウンドの評価は行わない。
サッカービデオ理解のためのベンチマークである SoccerLens を紹介する。
- 参考スコア(独自算出の注目度): 52.09081885158698
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) have recently shown strong potential in soccer video understanding. However, given the high complexity of soccer videos due to large viewpoint variations, rapid shot transitions, and cluttered scenes, it remains unclear on whether VLMs rely on meaningful visual evidence or exploit spurious correlations and shortcut learning. Existing evaluation protocols focus primarily on classification accuracy and do not assess visual grounding. To address this limitation, we introduce SoccerLens, a benchmark for grounded soccer video understanding. The benchmark contains annotated video segments spanning $13$ common soccer events, with structured visual cues organized into three levels of semantic relevance. We further extend the attribution method of Chefer [arXiv:2103.15679] to jointly model spatial and temporal attention, and introduce evaluation metrics that measure whether model attention aligns with annotated cues or drifts toward spurious regions. Our evaluation of state-of-the-art soccer VLMs shows that, despite strong classification accuracy, current models fail to exceed $50\%$ grounding performance even under the loosest cue definitions and consistently underutilize temporal information. These results reveal a substantial gap between predictive performance and true visual grounding, highlighting the need for grounded evaluation in complex spatio-temporal domains such as soccer.
- Abstract(参考訳): ビジョン言語モデル(VLM)は近年,サッカービデオ理解において大きな可能性を示している。
しかし、サッカービデオの複雑さが大きいのは、視点の変化、迅速なショット遷移、散らかったシーンのためであり、VLMが有意義な視覚的証拠に依存しているのか、あるいは急激な相関やショートカット学習を利用しているのかは定かではない。
既存の評価プロトコルは主に分類精度に重点を置いており、視覚的グラウンドの評価は行わない。
この制限に対処するために,サッカービデオ理解のためのベンチマークである SoccerLens を導入する。
このベンチマークには、13ドルの一般的なサッカーイベントにまたがる注釈付きビデオセグメントが含まれており、構造化された視覚的手がかりは3つの意味的関連性にまとめられている。
我々はさらに,Chefer [arXiv:2103.15679] の帰属法を拡張し,空間的および時間的注意を共同にモデル化し,アノテートキューとモデル注意が一致しているか,あるいは刺激領域に向かって漂流するかを測定する評価指標を導入する。
現状のサッカーVLMの評価は, 分類精度が強いにもかかわらず, 最もゆるやかなキュー定義の下でも, グラウンド化性能が50\%を超えることはなく, 時間的情報を一貫して過小評価していることを示す。
これらの結果から,サッカーなどの複雑な時空間領域におけるグラウンドド評価の必要性が示唆された。
関連論文リスト
- VisionCoach: Reinforcing Grounded Video Reasoning via Visual-Perception Prompting [58.508924874097715]
VisonCoach は,(1) ビデオと質問に対して適切なプロンプト型を予測する Visual Prompt Selector と,(2) 視覚的プロンプトガイダンスとオブジェクトグラウンド報酬の下で RL で最適化された Spatio-Reasoner の2つのコンポーネントから構成される。
この結果から,トレーニング中の視覚的プロンプトが映像推論を改善するのに対し,注意散布センスは推論時にプロンプトを必要とせず,この能力を実現することが示唆された。
論文 参考訳(メタデータ) (2026-03-15T23:32:02Z) - Do We Need Large VLMs for Spotting Soccer Actions? [4.175749804472612]
我々は、このビデオ中心のアプローチからテキストベースのタスクへのシフトを提案し、軽量でスケーラブルにする。
我々は、リッチな説明や文脈的な手がかりを提供する専門家の注釈書には、マッチにおける重要なアクションを確実に見つけ出すのに十分な情報が含まれていると仮定する。
実験の結果、この言語中心のアプローチは、最先端のビデオベースのスポッターに近づいた重要なマッチングイベントを検出するのに効果的であることがわかった。
論文 参考訳(メタデータ) (2025-06-20T16:45:54Z) - TimeSoccer: An End-to-End Multimodal Large Language Model for Soccer Commentary Generation [13.835968474349034]
TimeSoccerは、フルマッチサッカービデオにおけるSDVCのためのエンドツーエンドのサッカーMLLMである。
TimeSoccerはタイムスタンプを共同で予測し、ひとつのパスでキャプションを生成し、グローバルなコンテキストモデリングを可能にする。
MoFA-Selectは、トレーニングなし、モーション対応のフレーム圧縮モジュールで、代表フレームを適応的に選択する。
論文 参考訳(メタデータ) (2025-04-24T08:27:42Z) - Towards Active Learning for Action Spotting in Association Football
Videos [59.84375958757395]
フットボールビデオの分析は困難であり、微妙で多様な時間的パターンを特定する必要がある。
現在のアルゴリズムは、限られた注釈付きデータから学ぶ際に大きな課題に直面している。
次にアノテートすべき最も情報に富んだビデオサンプルを選択する能動的学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-09T11:50:41Z) - A Graph-Based Method for Soccer Action Spotting Using Unsupervised
Player Classification [75.93186954061943]
アクションスポッティングには、ゲームのダイナミクス、イベントの複雑さ、ビデオシーケンスのバリエーションを理解することが含まれる。
本研究では, (a) 選手, 審判, ゴールキーパーをグラフのノードとして識別し, および (b) 時間的相互作用をグラフのシーケンスとしてモデル化することによって, 前者に焦点を当てる。
プレーヤ識別タスクでは,他のモダリティと組み合わせることで,平均mAPの57.83%の総合的な性能が得られる。
論文 参考訳(メタデータ) (2022-11-22T15:23:53Z) - SoccerNet-Tracking: Multiple Object Tracking Dataset and Benchmark in
Soccer Videos [62.686484228479095]
本稿では,各30の200列からなる複数物体追跡のための新しいデータセットを提案する。
データセットは、バウンディングボックスとトラックレットIDで完全に注釈付けされている。
分析の結果,サッカービデオにおける複数の選手,審判,ボール追跡が解決されるには程遠いことがわかった。
論文 参考訳(メタデータ) (2022-04-14T12:22:12Z) - Temporally-Aware Feature Pooling for Action Spotting in Soccer
Broadcasts [86.56462654572813]
私たちは、サッカーの試合の主なアクションを一時的にローカライズするサッカー放送におけるアクションスポッティングの分析に焦点を当てています。
時間的知識を組み込んだNetVLAD++という,NetVLADに基づく新たな機能プーリング手法を提案する。
我々は最近の大規模データセット SoccerNet-v2 の方法論をトレーニングし、評価し、アクションスポッティングのための平均平均mAP 53.4% に達した。
論文 参考訳(メタデータ) (2021-04-14T11:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。