論文の概要: SV3.3B: A Sports Video Understanding Model for Action Recognition
- arxiv url: http://arxiv.org/abs/2507.17844v1
- Date: Wed, 23 Jul 2025 18:11:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:42.334386
- Title: SV3.3B: A Sports Video Understanding Model for Action Recognition
- Title(参考訳): SV3.3B:アクション認識のためのスポーツビデオ理解モデル
- Authors: Sai Varun Kodathala, Yashwanth Reddy Vutukoori, Rakesh Vunnam,
- Abstract要約: 本稿では,スポーツビデオの自動解析の課題について述べる。
現在のアプローチは、意味のあるスポーツ分析に不可欠な、微妙な生体力学的遷移を捉えるのに苦労している。
本稿では,軽量な3.3Bパラメータ映像理解モデルであるSV3.3Bを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper addresses the challenge of automated sports video analysis, which has traditionally been limited by computationally intensive models requiring server-side processing and lacking fine-grained understanding of athletic movements. Current approaches struggle to capture the nuanced biomechanical transitions essential for meaningful sports analysis, often missing critical phases like preparation, execution, and follow-through that occur within seconds. To address these limitations, we introduce SV3.3B, a lightweight 3.3B parameter video understanding model that combines novel temporal motion difference sampling with self-supervised learning for efficient on-device deployment. Our approach employs a DWT-VGG16-LDA based keyframe extraction mechanism that intelligently identifies the 16 most representative frames from sports sequences, followed by a V-DWT-JEPA2 encoder pretrained through mask-denoising objectives and an LLM decoder fine-tuned for sports action description generation. Evaluated on a subset of the NSVA basketball dataset, SV3.3B achieves superior performance across both traditional text generation metrics and sports-specific evaluation criteria, outperforming larger closed-source models including GPT-4o variants while maintaining significantly lower computational requirements. Our model demonstrates exceptional capability in generating technically detailed and analytically rich sports descriptions, achieving 29.2% improvement over GPT-4o in ground truth validation metrics, with substantial improvements in information density, action complexity, and measurement precision metrics essential for comprehensive athletic analysis. Model Available at https://huggingface.co/sportsvision/SV3.3B.
- Abstract(参考訳): 本稿では,サーバ側処理を要し,運動運動の微妙な理解が欠如している計算集約モデルにより,従来より制限されてきた自動スポーツ映像解析の課題に対処する。
現在のアプローチでは、意味のあるスポーツ分析に不可欠な、微妙なバイオメカニカルな遷移を捉えるのに苦労している。
これらの制約に対処するため、SV3.3Bは、新しい時間運動差分サンプリングと自己教師付き学習を組み合わせた、3.3Bパラメータビデオ理解モデルである。
提案手法では,DWT-VGG16-LDAをベースとしたキーフレーム抽出機構を用いて,スポーツシーンから最も代表的な16フレームをインテリジェントに識別し,マスクデノベート目的によって事前訓練されたV-DWT-JEPA2エンコーダと,スポーツアクション記述生成用に微調整されたLLMデコーダを用いる。
NSVAバスケットボールデータセットのサブセットに基づいて評価され、SV3.3Bは従来のテキスト生成指標とスポーツ固有の評価基準の両方で優れたパフォーマンスを達成し、GPT-4oを含む大規模なクローズソースモデルより優れており、計算要求は大幅に低い。
本モデルでは,GPT-4oよりも29.2%向上し,情報密度,行動複雑性,総合運動分析に不可欠な測定精度が大幅に向上した。
Model available at https://huggingface.co/sportsvision/SV3.3B
関連論文リスト
- CronusVLA: Transferring Latent Motion Across Time for Multi-Frame Prediction in Manipulation [67.1520483301709]
CronusVLAはシングルフレームのVLAモデルを効率的な後トレーニング段階を通じてマルチフレームのパラダイムに拡張する統合フレームワークである。
CronusVLAはSimplerEnvの最先端のパフォーマンスを70.9%の成功率で達成し、LIBEROのOpenVLAよりも12.7%改善した。
論文 参考訳(メタデータ) (2025-06-24T17:30:27Z) - AthletePose3D: A Benchmark Dataset for 3D Human Pose Estimation and Kinematic Validation in Athletic Movements [4.653030985708889]
AthletePose3Dは、高速で高速な運動運動をキャプチャするために設計された、新しいデータセットである。
本研究では,SOTA (State-of-the-art monocular 2D and 3D pose Estimation model on the dataset。
論文 参考訳(メタデータ) (2025-03-10T16:16:02Z) - DSV: Exploiting Dynamic Sparsity to Accelerate Large-Scale Video DiT Training [85.04885553561164]
Diffusion Transformer (DiTs) は高品質なビデオの生成において顕著な性能を示した。
DiTは処理時間の95%を消費し、特別なコンテキスト並列性を要求する。
本稿では,経験的に観察したダイナミックアテンション空間を利用して,DSVによるビデオDiTトレーニングを高速化する手法を提案する。
論文 参考訳(メタデータ) (2025-02-11T14:39:59Z) - SMI: An Information-Theoretic Metric for Predicting Model Knowledge Solely from Pre-Training Signals [51.60874286674908]
我々は、モデルの内部知識を示す重要な下流タスクであるクローズドブック質問応答(QA)の性能を予測することを目指している。
我々は、21の公開言語と3つのカスタムトレーニングされた大規模言語モデルの事前学習コーパスに対して、大規模な検索と意味解析を行う。
これらの基礎の上に構築されたSMI(Size-dependent Mutual Information)は,事前学習データの特徴,モデルサイズ,QAの精度を線形に相関する情報理論の指標である。
論文 参考訳(メタデータ) (2025-02-06T13:23:53Z) - Enhanced Multi-Object Tracking Using Pose-based Virtual Markers in 3x3 Basketball [3.072051066949152]
本研究では,チームスポーツのための新しい仮想マーカー(VM)MOT法,Sports-vmTrackingを提案する。
提案手法は平均 HOTA スコア72.3% を達成し,VM を含まない他の最先端メソッドよりも10ポイント以上高く,その結果,0 ID スイッチが得られた。
論文 参考訳(メタデータ) (2024-12-09T07:16:50Z) - AIGV-Assessor: Benchmarking and Evaluating the Perceptual Quality of Text-to-Video Generation with LMM [54.44479359918971]
AIGVQA-DBは,1,048プロンプトを用いた15の高度なテキスト・ビデオ・モデルによって生成された36,576個のAIGVからなる大規模データセットである。
AIGV-Assessorは、複雑な品質特性を活用して、正確なビデオ品質スコアとペアビデオ嗜好をキャプチャする新しいVQAモデルである。
論文 参考訳(メタデータ) (2024-11-26T08:43:15Z) - ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - Unlabeled Action Quality Assessment Based on Multi-dimensional Adaptive Constrained Dynamic Time Warping [12.639728404278255]
本稿では,動作品質評価のためのMED-ACDTW法を提案する。
提案手法では2次元および3次元の空間次元と複数の人体特徴を用いてテンプレートとテストビデオの特徴を比較する。
適応的制約スキームは、行動品質評価の判別可能性を約30%向上させる。
論文 参考訳(メタデータ) (2024-10-18T04:00:26Z) - EITNet: An IoT-Enhanced Framework for Real-Time Basketball Action Recognition [17.068932442773864]
EITNetは、ディープラーニング、I3D時間オブジェクト抽出、時間解析のためのTimeSformerを組み合わせたフレームワークである。
私たちの貢献には、認識精度を92%向上する堅牢なアーキテクチャの開発が含まれています。
IoTテクノロジの統合は、リアルタイムデータ処理を強化し、プレイヤーのパフォーマンスと戦略に関する適応的な洞察を提供する。
論文 参考訳(メタデータ) (2024-10-13T18:21:15Z) - Temporal Reasoning Transfer from Text to Video [51.68487044397409]
ビデオ大言語モデル(ビデオLLM)は、時間的変化の追跡と時間的関係の推論に苦労する。
テキストからビデオ領域への時間的推論能力を伝達するために、テキスト時間的推論転送(T3)を導入する。
LongVA-7Bモデルは、包括的なビデオベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-10-08T16:10:29Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Towards Active Learning for Action Spotting in Association Football
Videos [59.84375958757395]
フットボールビデオの分析は困難であり、微妙で多様な時間的パターンを特定する必要がある。
現在のアルゴリズムは、限られた注釈付きデータから学ぶ際に大きな課題に直面している。
次にアノテートすべき最も情報に富んだビデオサンプルを選択する能動的学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-09T11:50:41Z) - Sports Video Analysis on Large-Scale Data [10.24207108909385]
本稿では,スポーツビデオにおける自動機械記述のモデル化について検討する。
スポーツビデオ分析のためのNBAデータセット(NSVA)を提案する。
論文 参考訳(メタデータ) (2022-08-09T16:59:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。