論文の概要: TennisTV: Do Multimodal Large Language Models Understand Tennis Rallies?
- arxiv url: http://arxiv.org/abs/2509.15602v1
- Date: Fri, 19 Sep 2025 05:08:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.007394
- Title: TennisTV: Do Multimodal Large Language Models Understand Tennis Rallies?
- Title(参考訳): TennisTV: マルチモーダルな大規模言語モデルはテニスラリーを理解するか?
- Authors: Zhongyuan Bao, Lejun Zhang,
- Abstract要約: TennisTVはテニスビデオ理解のための最初の、そして最も包括的なベンチマークである。
ラリーレベルとストロークレベルの8つのタスクをカバーし、2500人の人間認証された質問を含んでいる。
- 参考スコア(独自算出の注目度): 0.41251872802992456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) excel at general video understanding but struggle with fast, high-frequency sports like tennis, where rally clips are short yet information-dense. To systematically evaluate MLLMs in this challenging domain, we present TennisTV, the first and most comprehensive benchmark for tennis video understanding. TennisTV models each rally as a temporal-ordered sequence of consecutive stroke events, using automated pipelines for filtering and question generation. It covers 8 tasks at rally and stroke levels and includes 2,500 human-verified questions. Evaluating 16 representative MLLMs, we provide the first systematic assessment of tennis video understanding. Results reveal substantial shortcomings and yield two key insights: (i) frame-sampling density should be tailored and balanced across tasks, and (ii) improving temporal grounding is essential for stronger reasoning.
- Abstract(参考訳): MLLM(Multimodal large language model)は、一般的なビデオ理解では優れるが、テニスのような高速で高周波なスポーツでは苦戦している。
この挑戦的な領域においてMLLMを体系的に評価するために、テニスビデオ理解のための最初の、そして最も包括的なベンチマークであるTennisTVを紹介する。
TennisTVは、各ラリーを、フィルタリングと質問生成のための自動パイプラインを使用して、連続するストロークイベントの時間順のシーケンスとしてモデル化する。
ラリーレベルとストロークレベルの8つのタスクをカバーし、2500人の人間認証された質問を含んでいる。
16の代表的なMLLMを評価し,テニス映像理解の体系的評価を行った。
結果は重大な欠点を明らかにし、2つの重要な洞察を与えます。
一 フレームサンプリング密度をタスクごとに調整し、バランスをとること。
(二)時間的接地を改善することは、より強い推論に不可欠である。
関連論文リスト
- Enhancing Sports Strategy with Video Analytics and Data Mining: Assessing the effectiveness of Multimodal LLMs in tennis video analysis [0.0]
本研究の目的は,テニスビデオを中心に,スポーツビデオの分析におけるMLLMの有効性を評価することである。
テニス分析の研究にもかかわらず、テニス集会における出来事の順序を理解し、特定できるモデルにはギャップが残っている。
このギャップを埋める能力 - テニスのアクションを分類する能力 - と、集会での一連のテニスアクションでこれらのアクションを識別する能力について、MLLMを主に評価する。
論文 参考訳(メタデータ) (2025-06-24T06:08:35Z) - SAMA: Towards Multi-Turn Referential Grounded Video Chat with Large Language Models [80.3895950009792]
ビデオにおけるきめ細かい時間的理解の獲得は、現在のビデオ大マルチモデル(ビデオLMM)にとって大きな課題である。
私たちは、データセット、モデル、ベンチマークの3つの中核的な側面に貢献しています。
まず,ビデオ理解,グラウンドニング,マルチターンビデオチャットの共用学習を実現するため、15Kビデオからなる大規模データセットであるSAMA-239Kを紹介する。
第2に,広義の時間的コンテキストアグリゲータとセグメンションモデルを組み合わせたSAMAモデルを提案する。
論文 参考訳(メタデータ) (2025-05-24T18:13:16Z) - Towards Universal Soccer Video Understanding [58.889409980618396]
本稿では,サッカー理解のための総合的マルチモーダルフレームワークを提案する。
これまでで最大のマルチモーダルサッカーデータセットである SoccerReplay-1988 を紹介する。
サッカービデオにまたがる時間的情報を活用し、様々な下流タスクに優れる高度なサッカー特化視覚情報であるMatchVisionを提示する。
論文 参考訳(メタデータ) (2024-12-02T18:58:04Z) - Motion-Grounded Video Reasoning: Understanding and Perceiving Motion at Pixel Level [63.18855743293851]
Motion-Grounded Video Reasoningは、入力された質問に応じて視覚的回答(ビデオセグメンテーションマスク)を必要とする新しい動作理解タスクである。
このタスクは、質問による暗黙の推論を可能にすることで、明示的なアクション/モーショングラウンドの既存の基盤作業を、より一般的なフォーマットに拡張する。
我々はMotion-Grounded Video Reasoning Assistant(MORA)という新しいベースラインモデルを導入する。
論文 参考訳(メタデータ) (2024-11-15T03:45:09Z) - SPORTU: A Comprehensive Sports Understanding Benchmark for Multimodal Large Language Models [15.062299319625701]
SPORTUはマルチレベルスポーツ推論タスク間でMLLM(Multimodal Large Language Models)を評価するために設計されたベンチマークである。
SPORTUは2つの重要なコンポーネントで構成されている。 SPORTU-textは900の多重選択質問と、ルール理解と戦略理解のための人間アノテーションによる説明を含む。
SPORTUビデオは、7つの異なるスポーツで1,701本のスローモーションビデオクリップと12,048本のQAペアで構成され、マルチレベル推論を評価するように設計されている。
論文 参考訳(メタデータ) (2024-10-11T02:58:38Z) - Classification of Tennis Actions Using Deep Learning [0.0]
本研究では,深層学習によるテニス行動の分類の可能性と課題について検討する。
テニスデータセットTheTISを用いて,異なる大きさの3つのモデルを訓練し,評価した。
最高のモデルは74 %の一般化精度を達成し、テニスアクション分類に優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-04T15:48:20Z) - P2ANet: A Dataset and Benchmark for Dense Action Detection from Table Tennis Match Broadcasting Videos [64.57435509822416]
この作品は、ワールド・テーブルテニス選手権とオリンピアードのプロの卓球試合の放送ビデオから収集された2,721本のビデオクリップで構成されている。
強調局所化と強調認識という2つのアクション検出問題を定式化する。
その結果、TheNameは依然として困難なタスクであり、ビデオからの高密度なアクション検出のための特別なベンチマークとして使用できることを確認した。
論文 参考訳(メタデータ) (2022-07-26T08:34:17Z) - TTNet: Real-time temporal and spatial video analysis of table tennis [5.156484100374058]
本稿では,高精細度卓球ビデオのリアルタイム処理を目的としたニューラルネットワークを提案する。
このアプローチは、自動参照システムによるスコア更新を推論するためのコア情報を提供する。
イベントをラベル付けした120fpsのテーブルテニスゲームのビデオ付きマルチタスクデータセットOpenTTGamesを公開している。
論文 参考訳(メタデータ) (2020-04-21T11:57:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。