論文の概要: Enhancing Sports Strategy with Video Analytics and Data Mining: Assessing the effectiveness of Multimodal LLMs in tennis video analysis
- arxiv url: http://arxiv.org/abs/2507.02904v1
- Date: Tue, 24 Jun 2025 06:08:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-13 12:05:57.499698
- Title: Enhancing Sports Strategy with Video Analytics and Data Mining: Assessing the effectiveness of Multimodal LLMs in tennis video analysis
- Title(参考訳): ビデオ分析とデータマイニングによるスポーツ戦略の強化:テニスビデオ解析におけるマルチモーダルLLMの有効性の評価
- Authors: Charlton Teo,
- Abstract要約: 本研究の目的は,テニスビデオを中心に,スポーツビデオの分析におけるMLLMの有効性を評価することである。
テニス分析の研究にもかかわらず、テニス集会における出来事の順序を理解し、特定できるモデルにはギャップが残っている。
このギャップを埋める能力 - テニスのアクションを分類する能力 - と、集会での一連のテニスアクションでこれらのアクションを識別する能力について、MLLMを主に評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of Large Language Models (LLMs) in recent years has also given rise to the development of Multimodal LLMs (MLLMs). These new MLLMs allow us to process images, videos and even audio alongside textual inputs. In this project, we aim to assess the effectiveness of MLLMs in analysing sports videos, focusing mainly on tennis videos. Despite research done on tennis analysis, there remains a gap in models that are able to understand and identify the sequence of events in a tennis rally, which would be useful in other fields of sports analytics. As such, we will mainly assess the MLLMs on their ability to fill this gap - to classify tennis actions, as well as their ability to identify these actions in a sequence of tennis actions in a rally. We further looked into ways we can improve the MLLMs' performance, including different training methods and even using them together with other traditional models.
- Abstract(参考訳): 近年,Large Language Models (LLMs) の利用により,MLLM (Multimodal LLMs) の開発が進められている。
これらのMLLMを使えば、画像やビデオ、さらには音声もテキスト入力で処理できます。
本研究の目的は,テニスビデオを中心にしたスポーツビデオの分析におけるMLLMの有効性を評価することである。
テニス分析の研究にもかかわらず、テニス集会における出来事の順序を理解し、特定できるモデルにはギャップがあり、これは他のスポーツ分析の分野で有用である。
そこで,我々は,このギャップを埋める能力,すなわちテニスのアクションを分類する能力,および一連のテニスのアクションでこれらのアクションを識別する能力について,MLLMを主に評価する。
さらに、異なるトレーニング方法を含むMLLMのパフォーマンスを改善する方法や、他の従来のモデルと併用する方法についても検討した。
関連論文リスト
- Do We Need Large VLMs for Spotting Soccer Actions? [4.334105740533729]
我々は、このビデオ中心のアプローチからテキストベースのタスクへのシフトを提案し、軽量でスケーラブルにする。
専門家のコメントには、マッチにおける重要なアクションを確実に見つけるのに十分な情報が含まれていると仮定する。
本実験は,この言語中心のアプローチが,臨界一致事象の検出に有効であることを示す。
論文 参考訳(メタデータ) (2025-06-20T16:45:54Z) - Advancing Multimodal Reasoning Capabilities of Multimodal Large Language Models via Visual Perception Reward [87.06604760273372]
本稿では,MLLMに視覚内容の正確な知覚を促す新しい視覚認識報酬を導入するPerception-R1を提案する。
本稿では,Perception-R1が1,442のトレーニングデータのみを用いて,ほとんどのベンチマークで最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2025-06-08T16:48:42Z) - V-MAGE: A Game Evaluation Framework for Assessing Vision-Centric Capabilities in Multimodal Large Language Models [84.27290155010533]
本稿では,視覚中心型多機能ゲーム評価(V-MAGE)について紹介する。
V-MAGEは、30以上の慎重に構築された評価シナリオからなる5つの異なるビデオゲームを特徴としている。
V-MAGEは、動的かつインタラクティブな設定において、MLLMの視覚的および推論能力を改善するために実行可能な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-08T15:43:01Z) - InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling [56.130911402831906]
本稿では,LRC(Long and rich context)モデリングによるビデオ大言語モデル(LM)の性能向上を目的とする。
InternVideo2.5の新バージョンを開発し、ビデオの細かい詳細を知覚するオリジナルのMLLMの能力の向上に焦点をあてる。
実験により、このユニークな設計ML LRCは、主流理解ベンチマークにおけるビデオMLLMの結果を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-01-21T18:59:00Z) - Survey of different Large Language Model Architectures: Trends, Benchmarks, and Challenges [15.850548556536538]
大規模言語モデル(LLMs)は、自然言語の理解に精通したディープラーニングモデルのクラスである。
これらのモデルの先進的なサブセットであるMultimodal Large Language Models (MLLM)は、複数のデータモダリティを処理および解釈するためにLLM機能を拡張している。
本調査は,LLMの最近の進歩を概観する。
論文 参考訳(メタデータ) (2024-12-04T11:14:06Z) - Can VLMs be used on videos for action recognition? LLMs are Visual Reasoning Coordinators [0.0]
本稿では,大規模言語モデル (LLM) が,自然言語通信によって複数の視覚言語モデル (VLM) を効率的にコーディネートする方法を示す。
本研究は,同手法が行動認識のための監視ビデオに適用できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-07-20T10:26:28Z) - Harnessing LLMs for Automated Video Content Analysis: An Exploratory Workflow of Short Videos on Depression [8.640838598568605]
我々は,Large Language Models (LLMs) を用いたマルチモーダルコンテンツ分析の新しいワークフローに従って,ケーススタディを実施している。
LLMのビデオアノテーション機能をテストするために,うつ病に関する25の短いビデオから抽出した203を解析した。
論文 参考訳(メタデータ) (2024-06-27T21:03:56Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - Efficient Multimodal Large Language Models: A Survey [60.7614299984182]
MLLM(Multimodal Large Language Models)は、視覚的質問応答、視覚的理解、推論などのタスクにおいて顕著な性能を示す。
モデルサイズと高いトレーニングと推論コストが、MLLMのアカデミックや産業への応用を妨げている。
本調査は,効率的なMLLMの現状を包括的かつ体系的に概観するものである。
論文 参考訳(メタデータ) (2024-05-17T12:37:10Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - SportQA: A Benchmark for Sports Understanding in Large Language Models [12.860652075730876]
SportQAは、スポーツ理解の文脈で大規模言語モデル(LLM)を評価するために特別に設計されたベンチマークである。
SportQAには3つの難易度で70,000以上の複数の質問が含まれている。
以上の結果から,LSMは基本的なスポーツ知識において有能な性能を示す一方で,より複雑なシナリオベースのスポーツ推論に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-24T17:12:10Z) - Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。
Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。
本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文 参考訳(メタデータ) (2023-12-29T01:56:17Z) - PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。