論文の概要: SportsGPT: An LLM-driven Framework for Interpretable Sports Motion Assessment and Training Guidance
- arxiv url: http://arxiv.org/abs/2512.14121v2
- Date: Fri, 19 Dec 2025 06:44:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 13:33:13.512484
- Title: SportsGPT: An LLM-driven Framework for Interpretable Sports Motion Assessment and Training Guidance
- Title(参考訳): SportsGPT:スポーツ運動評価・トレーニングガイダンスのためのLLM駆動型フレームワーク
- Authors: Wenbo Tian, Ruting Lin, Hongxian Zheng, Yaodong Yang, Geng Wu, Zihao Zhang, Zhang Zhang,
- Abstract要約: スポーツ運動評価とトレーニング指導を解釈するLLM駆動型フレームワークであるSportsGPTを提案する。
MotionDTWは2段階の時系列アライメントアルゴリズムである。
SportsRAGは、Qwen3をベースにしたRAGベースのトレーニングガイダンスモデルである。
- 参考スコア(独自算出の注目度): 22.480385290370663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing intelligent sports analysis systems mainly focus on "scoring and visualization," often lacking automatic performance diagnosis and interpretable training guidance. Recent advances in Large Language Models (LLMs) and motion analysis techniques provide new opportunities to address the above limitations. In this paper, we propose SportsGPT, an LLM-driven framework for interpretable sports motion assessment and training guidance, which establishes a closed loop from motion time-series input to professional training guidance. First, given a set of high-quality target models, we introduce MotionDTW, a two-stage time series alignment algorithm designed for accurate keyframe extraction from skeleton-based motion sequences. Subsequently, we design a Knowledge-based Interpretable Sports Motion Assessment Model (KISMAM) to obtain a set of interpretable assessment metrics (e.g., insufficient extension) by contrasting the keyframes with the target models. Finally, we propose SportsRAG, a RAG-based training guidance model built upon Qwen3. Leveraging a 6B-token knowledge base, it prompts the LLM to generate professional training guidance by retrieving domain-specific QA pairs. Experimental results demonstrate that MotionDTW significantly outperforms traditional methods with lower temporal error and higher IoU scores. Furthermore, ablation studies validate the KISMAM and SportsRAG, confirming that SportsGPT surpasses general LLMs in diagnostic accuracy and professionalism.
- Abstract(参考訳): 既存の知的スポーツ分析システムは、しばしば自動的なパフォーマンス診断と解釈可能なトレーニングガイダンスを欠いている「装飾と可視化」に重点を置いている。
近年のLarge Language Models(LLMs)とモーション分析技術は,これらの制約に対処する新たな機会を提供する。
本稿では,スポーツの動作評価とトレーニング指導をLLMで行うフレームワークであるSportsGPTを提案する。
まず、高品質なターゲットモデルが与えられた場合、骨格に基づく動きシーケンスから正確なキーフレーム抽出のために設計された2段階の時系列アライメントアルゴリズムであるMotionDTWを導入する。
その後、知識に基づく解釈可能なスポーツ運動評価モデル(KISMAM)を設計し、キーフレームと対象モデルとの対比により、解釈可能な評価指標(例えば、不十分な拡張)のセットを得る。
最後に,Qwen3に基づくRAGベースのトレーニングガイダンスモデルであるSportsRAGを提案する。
6Bの知識ベースを活用することで、LLMはドメイン固有のQAペアを取得することで、プロフェッショナルなトレーニングガイダンスを生成する。
実験の結果,MotionDTWは時間誤差が低く,IoUスコアが高い従来の手法よりも有意に優れていた。
さらに、Ablation studyはKISMAMとSportsRAGを検証し、SportsGPTが診断精度と専門性において一般的なLLMを上回ることを確認した。
関連論文リスト
- RADAR: Revealing Asymmetric Development of Abilities in MLLM Pre-training [59.493415006017635]
事前訓練されたマルチモーダル大言語モデル(MLLM)は、ポストトレーニングのための知識豊富な基盤を提供する。
現在の評価は、厳格な追加トレーニングと自己回帰的復号コストを導入する、教師付き微調整後のテストに依存している。
MLLM pRe トレーニングにおける非対称性向上のための効率的な能力中心評価フレームワーク RADAR を提案する。
論文 参考訳(メタデータ) (2026-02-13T12:56:31Z) - CourtMotion: Learning Event-Driven Motion Representations from Skeletal Data for Basketball [45.88028371034407]
CourtMotionはプロバスケットボールにおけるゲームイベントやプレーの分析と予測のためのテンポラリなモデリングフレームワークである。
2段階のアプローチでは、まず、グラフニューラルネットワークを通じて骨格追跡データを処理し、ニュアンスした動きパターンをキャプチャします。
選手の動きを、パス、ショット、ステルスなどのバスケットボールイベントに明示的に結びつけるイベントプロジェクションヘッドを導入し、物理的な動きパターンと目的を関連付けるためにモデルを訓練する。
論文 参考訳(メタデータ) (2025-12-01T09:58:24Z) - DeepSport: A Multimodal Large Language Model for Comprehensive Sports Video Reasoning via Agentic Reinforcement Learning [25.001089287899998]
DeepSportは、マルチタスク、マルチスポーツビデオ理解のために設計された、エンドツーエンドでトレーニングされた最初のMLLMフレームワークである。
我々の研究は、多様なスポーツの複雑さに対処するために、ドメイン固有のビデオ推論のための新しい基盤を確立する。
論文 参考訳(メタデータ) (2025-11-17T02:57:15Z) - SportR: A Benchmark for Multimodal Large Language Model Reasoning in Sports [21.410115837645318]
SportRは、スポーツインテリジェンスに必要な基本的な理由に基づいてMLLMを訓練し、評価するために設計された最初のマルチスポーツ大規模ベンチマークである。
私たちのベンチマークでは,5,017枚の画像と2,101本のビデオのデータセットが提供されている。
罰則の決定や戦術の説明など,多段階の推論を必要とする最も先進的なタスクに対して,我々は7,118の高品質な人間による思考の連鎖(Chain of Thought)アノテーションを提供する。
論文 参考訳(メタデータ) (2025-11-09T18:55:20Z) - Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models [78.32948112203228]
ビデオ理解はコンピュータビジョンにおける最も困難なフロンティアである。
近年,映像理解タスクにおいて,映像多時間モデルが顕著に出現している。
Surveyは、ビデオ-LMM能力を向上するための統一的なフレームワークを研究者や実践者に提供することを目的としている。
論文 参考訳(メタデータ) (2025-10-06T17:10:44Z) - Biomechanical-phase based Temporal Segmentation in Sports Videos: a Demonstration on Javelin-Throw [0.0]
伝統的なスポーツ分析技術は手動のアノテーションや実験室に基づく計測に依存している。
このような文脈的に認識された時間的セグメンテーションのための新しい教師なしフレームワークを提案する。
提案手法は,テストデータの平均精度(mAP)が71.02%,F1スコアが74.61%であり,競合するベースラインよりもかなり高い。
論文 参考訳(メタデータ) (2025-09-29T11:11:46Z) - VideoChat-R1.5: Visual Test-Time Scaling to Reinforce Multimodal Reasoning by Iterative Perception [50.446538409259524]
VTTS(Visual Test-Time Scaling)は、推論中の反復推論を通じてMLLMの推論を強化する新しい手法である。
VTTSは、高信頼の階層的時間領域に注目することで人間の注意を模倣し、更新されたテキスト予測によってガイドされる。
新たに導入した Videochat-R1.5 モデルは,平均 5% 以上の向上を実現しています。
論文 参考訳(メタデータ) (2025-09-25T12:46:46Z) - SV3.3B: A Sports Video Understanding Model for Action Recognition [0.0]
本稿では,スポーツビデオの自動解析の課題について述べる。
現在のアプローチは、意味のあるスポーツ分析に不可欠な、微妙な生体力学的遷移を捉えるのに苦労している。
本稿では,軽量な3.3Bパラメータ映像理解モデルであるSV3.3Bを紹介する。
論文 参考訳(メタデータ) (2025-07-23T18:11:39Z) - From Sight to Insight: Unleashing Eye-Tracking in Weakly Supervised Video Salient Object Detection [60.11169426478452]
本稿では,弱い監督下での健全な物体の検出を支援するために,固定情報を導入することを目的とする。
特徴学習過程における位置と意味のガイダンスを提供するために,位置と意味の埋め込み (PSE) モジュールを提案する。
Intra-Inter Mixed Contrastive (MCII)モデルは、弱い監督下での時間的モデリング能力を改善する。
論文 参考訳(メタデータ) (2025-06-30T05:01:40Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - Bootstrap Motion Forecasting With Self-Consistent Constraints [52.88100002373369]
自己整合性制約を用いた動き予測をブートストラップする新しい枠組みを提案する。
運動予測タスクは、過去の空間的・時間的情報を組み込むことで、車両の将来の軌跡を予測することを目的としている。
提案手法は,既存手法の予測性能を常に向上することを示す。
論文 参考訳(メタデータ) (2022-04-12T14:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。