論文の概要: TennisExpert: Towards Expert-Level Analytical Sports Video Understanding
- arxiv url: http://arxiv.org/abs/2603.13397v2
- Date: Tue, 17 Mar 2026 16:02:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:06.836755
- Title: TennisExpert: Towards Expert-Level Analytical Sports Video Understanding
- Title(参考訳): TennisExpert: エキスパートレベルのスポーツビデオ理解を目指す
- Authors: Zhaoyu Liu, Xi Weng, Lianyu Hu, Zhe Hou, Kan Jiang, Jin Song Dong, Yang Liu,
- Abstract要約: テニスは最も広くフォローされているスポーツの1つであり、プロのアナリティクス、自動コーチング、リアルタイムの解説に強い可能性を持つ広範な放送映像を生み出している。
しかし、詳細な注釈と専門家レベルの注釈を付けた大規模なベンチマークが欠如しているため、自動テニス理解はいまだ探索されていない。
これらの課題に対処するため、200以上のプロの試合(471.9時間)と4万以上のラリーレベルのクリップからなる大規模なテニスベンチマークであるTennisVLを紹介した。
Qwen3-VL-8B上に構築されたメモリ拡張モデルとビデオセマンティクスを統合するマルチモーダルテニス理解フレームワークであるTennisExpertを提案する。
- 参考スコア(独自算出の注目度): 16.625250626542208
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tennis is one of the most widely followed sports, generating extensive broadcast footage with strong potential for professional analysis, automated coaching, and real-time commentary. However, automatic tennis understanding remains underexplored due to two key challenges: (1) the lack of large-scale benchmarks with fine-grained annotations and expert-level commentary, and (2) the difficulty of building accurate yet efficient multimodal systems suitable for real-time deployment. To address these challenges, we introduce TennisVL, a large-scale tennis benchmark comprising over 200 professional matches (471.9 hours) and 40,000+ rally-level clips. Unlike existing commentary datasets that focus on descriptive play-by-play narration, TennisVL emphasizes expert analytical commentary capturing tactical reasoning, player decisions, and match momentum. Furthermore, we propose TennisExpert, a multimodal tennis understanding framework that integrates a video semantic parser with a memory-augmented model built on Qwen3-VL-8B. The parser extracts key match elements (e.g., scores, shot sequences, ball bounces, and player locations), while hierarchical memory modules capture both short- and long-term temporal context. Experiments show that TennisExpert consistently outperforms strong proprietary baselines, including GPT-5, Gemini, and Claude, and demonstrates improved ability to capture tactical context and match dynamics. Our dataset and code are publicly available at https://github.com/LZYAndy/TennisExpert.
- Abstract(参考訳): テニスは最も広くフォローされているスポーツの1つであり、プロのアナリティクス、自動コーチング、リアルタイムの解説に強い可能性を持つ広範な放送映像を生み出している。
しかし, テニスの自動理解は, 1) 微粒な注釈と専門家レベルの注釈付き大規模ベンチマークの欠如, (2) リアルタイム展開に適した正確かつ効率的なマルチモーダルシステムを構築することの難しさ, という2つの大きな課題により, いまだ探索されていない。
これらの課題に対処するため、200以上のプロの試合(471.9時間)と4万以上のラリーレベルのクリップからなる大規模なテニスベンチマークであるTennisVLを紹介した。
記述的なプレイ・バイ・プレイナレーションに焦点を当てた既存の注釈データセットとは異なり、TennisVLは戦術的推論、プレイヤーの決定、運動量とのマッチングを専門的な分析的注釈に重点を置いている。
さらに,Qwen3-VL-8B上に構築されたメモリ拡張モデルとビデオセマンティックパーサを統合したマルチモーダルテニス理解フレームワークであるTennisExpertを提案する。
パーサはキーマッチ要素(スコア、ショットシーケンス、ボールバウンス、プレーヤ位置)を抽出し、階層記憶モジュールは短期と長期の時間的コンテキストの両方をキャプチャする。
実験によると、TennisExpertはGPT-5、Gemini、Claudeなど、強力なプロプライエタリなベースラインを一貫して上回り、戦術的コンテキストをキャプチャし、ダイナミックスにマッチする能力を向上している。
私たちのデータセットとコードはhttps://github.com/LZYAndy/TennisExpert.comで公開されています。
関連論文リスト
- Automated Tennis Player and Ball Tracking with Court Keypoints Detection (Hawk Eye System) [0.0]
本研究では,自動テニスマッチ解析のための完全パイプラインを提案する。
本フレームワークは,複数の深層学習モデルを統合し,選手とテニスボールをリアルタイムで検出・追跡する。
このモデルは、注釈付きビデオと詳細なパフォーマンス指標を出力し、コーチ、ブロードキャスター、プレイヤーがゲームのダイナミクスに関する実用的な洞察を得ることを可能にする。
論文 参考訳(メタデータ) (2025-11-06T07:18:54Z) - TennisTV: Do Multimodal Large Language Models Understand Tennis Rallies? [0.41251872802992456]
TennisTVはテニスビデオ理解のための最初の、そして最も包括的なベンチマークである。
9つのタスクを、ストロークレベルからラリーレベルまでカバーし、2943の人間認証質問を含む。
論文 参考訳(メタデータ) (2025-09-19T05:08:05Z) - Enhancing Sports Strategy with Video Analytics and Data Mining: Automated Video-Based Analytics Framework for Tennis Doubles [3.1130310881807]
このフレームワークは、グラウンディングディーノのような高度な機械学習技術と、自然言語の接地による正確なプレイヤーローカライゼーションと、ロバストなポーズ推定のためのYOLO-Poseを統合している。
テニスの試合データに対する我々のアプローチを評価し,CNNを用いたトランスファー学習を用いたモデルが,ショットタイプ,プレーヤ位置,フォーメーションの予測において,ポーズベースの手法よりもかなり優れていることを示す。
論文 参考訳(メタデータ) (2025-06-24T06:48:55Z) - Match Point AI: A Novel AI Framework for Evaluating Data-Driven Tennis Strategies [46.1232919707345]
テニスマッチシミュレーション環境のtextitMatch Point AI について述べる。
最初の実験では、シミュレートされたテニスの試合で生成されたショット・バイ・ショットのデータは、実世界のデータと比較して現実的な特徴を示している。
同時に、現実のテニスの試合で見られるものと類似した、合理的なショット配置戦略が出現する。
論文 参考訳(メタデータ) (2024-08-12T07:22:46Z) - MatchTime: Towards Automatic Soccer Game Commentary Generation [52.431010585268865]
観客の視聴体験を改善するために,自動サッカーゲーム解説モデルの構築を検討する。
まず、既存のデータセットでよく見られるビデオテキストのミスアライメントを観察し、49試合のタイムスタンプを手動でアノテートする。
第2に,既存のデータセットを自動的に修正・フィルタリングするマルチモーダル時間アライメントパイプラインを提案する。
第3に、キュレートされたデータセットに基づいて、MatchVoiceという自動コメント生成モデルをトレーニングします。
論文 参考訳(メタデータ) (2024-06-26T17:57:25Z) - P2ANet: A Dataset and Benchmark for Dense Action Detection from Table Tennis Match Broadcasting Videos [64.57435509822416]
この作品は、ワールド・テーブルテニス選手権とオリンピアードのプロの卓球試合の放送ビデオから収集された2,721本のビデオクリップで構成されている。
強調局所化と強調認識という2つのアクション検出問題を定式化する。
その結果、TheNameは依然として困難なタスクであり、ビデオからの高密度なアクション検出のための特別なベンチマークとして使用できることを確認した。
論文 参考訳(メタデータ) (2022-07-26T08:34:17Z) - Temporally-Aware Feature Pooling for Action Spotting in Soccer
Broadcasts [86.56462654572813]
私たちは、サッカーの試合の主なアクションを一時的にローカライズするサッカー放送におけるアクションスポッティングの分析に焦点を当てています。
時間的知識を組み込んだNetVLAD++という,NetVLADに基づく新たな機能プーリング手法を提案する。
我々は最近の大規模データセット SoccerNet-v2 の方法論をトレーニングし、評価し、アクションスポッティングのための平均平均mAP 53.4% に達した。
論文 参考訳(メタデータ) (2021-04-14T11:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。