論文の概要: Beyond Pixels: Leveraging the Language of Soccer to Improve Spatio-Temporal Action Detection in Broadcast Videos
- arxiv url: http://arxiv.org/abs/2505.09455v1
- Date: Wed, 14 May 2025 15:05:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.505311
- Title: Beyond Pixels: Leveraging the Language of Soccer to Improve Spatio-Temporal Action Detection in Broadcast Videos
- Title(参考訳): カメラを超えて:放送ビデオの時空間行動検出を改善するためにサッカー言語を活用する
- Authors: Jeremie Ochin, Raphael Chekroun, Bogdan Stanciulescu, Sotiris Manitsaris,
- Abstract要約: 最新の時間的行動検出手法は、放送ビデオからイベントを抽出する有望な結果を示す。
多くの偽陽性は、より広範な行動列とゲーム状態情報を考慮することで解決できる。
ゲームレベルでの推論と,デノナイジングシーケンスタスクの追加によるSTADの改善により,この問題に対処する。
- 参考スコア(独自算出の注目度): 1.4249472316161877
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art spatio-temporal action detection (STAD) methods show promising results for extracting soccer events from broadcast videos. However, when operated in the high-recall, low-precision regime required for exhaustive event coverage in soccer analytics, their lack of contextual understanding becomes apparent: many false positives could be resolved by considering a broader sequence of actions and game-state information. In this work, we address this limitation by reasoning at the game level and improving STAD through the addition of a denoising sequence transduction task. Sequences of noisy, context-free player-centric predictions are processed alongside clean game state information using a Transformer-based encoder-decoder model. By modeling extended temporal context and reasoning jointly over team-level dynamics, our method leverages the "language of soccer" - its tactical regularities and inter-player dependencies - to generate "denoised" sequences of actions. This approach improves both precision and recall in low-confidence regimes, enabling more reliable event extraction from broadcast video and complementing existing pixel-based methods.
- Abstract(参考訳): 最新の時空間行動検出法(STAD)は,放送ビデオからサッカーイベントを抽出する有望な結果を示す。
しかし、サッカー分析において、徹底的なイベントカバレッジに必要な高精度で高精度なシステムで操作すると、その文脈的理解の欠如が明らかになる: より広範なアクションやゲーム状態の情報を考慮することで、多くの偽陽性が解決できる。
本研究では,この制限をゲームレベルでの推論と,デノナイズシーケンスのトランスダクションタスクの追加によるSTADの改善によって解決する。
トランスフォーマーベースのエンコーダ・デコーダモデルを用いて、ノイズのない文脈自由プレイヤー中心の予測をクリーンなゲーム状態情報と共に処理する。
時間的コンテキストの拡張とチームレベルのダイナミクスによる推論をモデル化することにより、我々の手法は「サッカーの言語」 – 戦術的規則性とプレイヤー間の依存関係 – を活用して、アクションの「デノベート」シーケンスを生成する。
このアプローチは、低信頼のレシエーションにおける精度とリコールの両方を改善し、放送ビデオからより信頼性の高いイベント抽出を可能にし、既存のピクセルベースの手法を補完する。
関連論文リスト
- FDDet: Frequency-Decoupling for Boundary Refinement in Temporal Action Detection [4.015022008487465]
大規模な事前訓練されたビデオエンコーダは、背景の乱雑さと無関係なセマンティクスを導入し、コンテキストの混乱と境界に繋がる。
本稿では,事前学習したモデルから得られた雑音のセマンティクスをフィルタリングすることで,行動識別性を向上させる周波数対応デカップリングネットワークを提案する。
本手法は時間的行動検出ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-04-01T10:57:37Z) - Game State and Spatio-temporal Action Detection in Soccer using Graph Neural Networks and 3D Convolutional Networks [1.4249472316161877]
サッカーは2つのデータソースに依存している。
本稿では,学習したエンドツーエンドと最先端の3D CNNによる視覚的・ゲーム的状態分析を組み合わせた時間的行動検出手法を提案する。
論文 参考訳(メタデータ) (2025-02-21T13:41:38Z) - A Simple and Effective Temporal Grounding Pipeline for Basketball Broadcast Footage [0.0]
バスケットボール放送映像の映像から分析的アライメントのための信頼性の高い時間的グラウンドパイプラインを提案する。
本手法は,ビデオフレームに高密度なイベントアノテーションを含むプレイバイプレイアノテーションのラベル付きコーパスを調整し,ラベル付きビデオセグメントの迅速な検索を可能にする。
論文 参考訳(メタデータ) (2024-10-30T17:27:44Z) - Towards Active Learning for Action Spotting in Association Football
Videos [59.84375958757395]
フットボールビデオの分析は困難であり、微妙で多様な時間的パターンを特定する必要がある。
現在のアルゴリズムは、限られた注釈付きデータから学ぶ際に大きな課題に直面している。
次にアノテートすべき最も情報に富んだビデオサンプルを選択する能動的学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-09T11:50:41Z) - Boundary-Denoising for Video Activity Localization [57.9973253014712]
本稿では,映像活動のローカライゼーション問題について,認知的視点から検討する。
具体的には,DenoiseLocというエンコーダデコーダモデルを提案する。
実験によると、DenoiseLocはいくつかのビデオアクティビティ理解タスクで%前進している。
論文 参考訳(メタデータ) (2023-04-06T08:48:01Z) - A Graph-Based Method for Soccer Action Spotting Using Unsupervised
Player Classification [75.93186954061943]
アクションスポッティングには、ゲームのダイナミクス、イベントの複雑さ、ビデオシーケンスのバリエーションを理解することが含まれる。
本研究では, (a) 選手, 審判, ゴールキーパーをグラフのノードとして識別し, および (b) 時間的相互作用をグラフのシーケンスとしてモデル化することによって, 前者に焦点を当てる。
プレーヤ識別タスクでは,他のモダリティと組み合わせることで,平均mAPの57.83%の総合的な性能が得られる。
論文 参考訳(メタデータ) (2022-11-22T15:23:53Z) - Feature Combination Meets Attention: Baidu Soccer Embeddings and
Transformer based Temporal Detection [3.7709686875144337]
本稿では,サッカー中継ビデオにおけるイベントの発生状況と発生状況を検出するための2段階のパラダイムを提案する。
具体的には,サッカーデータ上に複数のアクション認識モデルを微調整し,ハイレベルなセマンティックな特徴を抽出する。
このアプローチは、サッカーネットv2チャレンジにおける2つのタスク、すなわちアクションスポッティングとリプレイグラウンドにおいて、最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2021-06-28T08:00:21Z) - Temporally-Aware Feature Pooling for Action Spotting in Soccer
Broadcasts [86.56462654572813]
私たちは、サッカーの試合の主なアクションを一時的にローカライズするサッカー放送におけるアクションスポッティングの分析に焦点を当てています。
時間的知識を組み込んだNetVLAD++という,NetVLADに基づく新たな機能プーリング手法を提案する。
我々は最近の大規模データセット SoccerNet-v2 の方法論をトレーニングし、評価し、アクションスポッティングのための平均平均mAP 53.4% に達した。
論文 参考訳(メタデータ) (2021-04-14T11:09:03Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z) - SoccerNet-v2: A Dataset and Benchmarks for Holistic Understanding of
Broadcast Soccer Videos [71.72665910128975]
SoccerNet-v2 は SoccerNet ビデオデータセット用の手動アノテーションの大規模なコーパスである。
SoccerNetの500の未トリミングサッカービデオの中で、約300万のアノテーションをリリースしています。
サッカーの領域における現在のタスクを拡張し、アクションスポッティング、カメラショットセグメンテーション、境界検出を含む。
論文 参考訳(メタデータ) (2020-11-26T16:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。