論文の概要: DeepSport: A Multimodal Large Language Model for Comprehensive Sports Video Reasoning via Agentic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.12908v1
- Date: Mon, 17 Nov 2025 02:57:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.623795
- Title: DeepSport: A Multimodal Large Language Model for Comprehensive Sports Video Reasoning via Agentic Reinforcement Learning
- Title(参考訳): DeepSport: エージェント強化学習による総合スポーツビデオ推論のための多モーダル大言語モデル
- Authors: Junbo Zou, Haotian Xia, Zhen Ye, Shengjie Zhang, Christopher Lai, Vicente Ordonez, Weining Shen, Hanjie Chen,
- Abstract要約: DeepSportは、マルチタスク、マルチスポーツビデオ理解のために設計された、エンドツーエンドでトレーニングされた最初のMLLMフレームワークである。
我々の研究は、多様なスポーツの複雑さに対処するために、ドメイン固有のビデオ推論のための新しい基盤を確立する。
- 参考スコア(独自算出の注目度): 25.001089287899998
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sports video understanding presents unique challenges, requiring models to perceive high-speed dynamics, comprehend complex rules, and reason over long temporal contexts. While Multimodal Large Language Models (MLLMs) have shown promise in genral domains, the current state of research in sports remains narrowly focused: existing approaches are either single-sport centric, limited to specific tasks, or rely on training-free paradigms that lack robust, learned reasoning process. To address this gap, we introduce DeepSport, the first end-to-end trained MLLM framework designed for multi-task, multi-sport video understanding. DeepSport shifts the paradigm from passive frame processing to active, iterative reasoning, empowering the model to ``think with videos'' by dynamically interrogating content via a specialized frame-extraction tool. To enable this, we propose a data distillation pipeline that synthesizes high-quality Chain-of-Thought (CoT) trajectories from 10 diverse data source, creating a unified resource of 78k training data. We then employ a two-stage training strategy, Supervised Fine-Tuning (SFT) followed by Reinforcement Learning (RL) with a novel gated tool-use reward, to optimize the model's reasoning process. Extensive experiments on the testing benchmark of 6.7k questions demonstrate that DeepSport achieves state-of-the-art performance, significantly outperforming baselines of both proprietary model and open-source models. Our work establishes a new foundation for domain-specific video reasoning to address the complexities of diverse sports.
- Abstract(参考訳): スポーツビデオ理解は、モデルが高速なダイナミクスを知覚し、複雑なルールを理解し、長時間の時間的文脈に対する理性を要求するという、ユニークな課題を提示する。
MLLM(Multimodal Large Language Models)は、ジェネラルドメインにおける将来性を示しているが、スポーツ研究の現在の状況は狭く焦点を絞っている: 既存のアプローチはシングルスポーツ中心であり、特定のタスクに限定されているか、あるいは、堅牢で学習された推論プロセスに欠ける訓練のないパラダイムに依存している。
このギャップに対処するために,マルチタスク,マルチスポーツビデオ理解のために設計された,エンドツーエンドでトレーニングされた最初のMLLMフレームワークであるDeepSportを紹介した。
DeepSportは、パラダイムをパッシブフレーム処理からアクティブで反復的な推論にシフトし、特殊なフレーム抽出ツールを通じてコンテンツを動的に問うことによって、モデルを‘ビデオによる思考’に権限を与える。
これを実現するために,10種類のデータソースから高品質なChain-of-Thought(CoT)トラジェクトリを合成し,78kのトレーニングデータの統合リソースを作成するデータ蒸留パイプラインを提案する。
次に、モデルの推論プロセスを最適化するために、2段階のトレーニング戦略であるSupervised Fine-Tuning(SFT)とReinforcement Learning(RL)を採用した。
6.7k の質問に対するテストベンチマークに関する大規模な実験は、DeepSportが最先端のパフォーマンスを達成し、プロプライエタリモデルとオープンソースモデルのベースラインを著しく上回っていることを示している。
我々の研究は、多様なスポーツの複雑さに対処するために、ドメイン固有のビデオ推論のための新しい基盤を確立する。
関連論文リスト
- ERNIE 5.0 Technical Report [244.36480708815316]
ERNIE 5.0は、テキスト、画像、ビデオ、オーディオをまたいだ統合されたマルチモーダル理解と生成のための統合された自己回帰基盤モデルである。
ERNIE 5.0は、多様なリソース制約下での大規模デプロイメントの実践的な課題に対処するため、新しい弾力性トレーニングパラダイムを採用している。
ERNIE 5.0は、複数のモードで強い、バランスの取れた性能を実現する。
論文 参考訳(メタデータ) (2026-02-04T16:18:15Z) - SoccerMaster: A Vision Foundation Model for Soccer Understanding [50.88251190999469]
サッカーの理解は、最近、そのドメイン固有の複雑さとユニークな課題のために、研究の関心が高まっている。
本研究の目的は,微粒な知覚から意味論的推論に至るまで,多様なサッカー視覚理解タスクを扱う統一モデルを提案することである。
1つのフレームワーク内で多様な理解タスクを統一する、サッカー特有のビジョン基盤モデルである、サッカーマスターを提示する。
論文 参考訳(メタデータ) (2025-12-11T18:03:30Z) - OneThinker: All-in-one Reasoning Model for Image and Video [45.8205286430071]
多様な視覚的タスクにおける画像と映像の理解を統一するオールインワン推論モデルであるOneThinkerを提案する。
実験によると、OneThinkerは10の基本的な視覚的理解タスクに対して、31のベンチマークで強力なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-12-02T18:59:52Z) - Learning Skill-Attributes for Transferable Assessment in Video [56.813876909367856]
ビデオによるスキル評価は、人の身体的パフォーマンスの品質を評価し、何がより良くできるかを説明する。
当社のCrossTrainerアプローチでは,バランス,コントロール,手の位置決めといったスキル属性が検出される。
人間のスキルを表わす行動の共有を抽象化することにより,提案した映像表現は,既存のテクニックの配列よりもはるかに優れている。
論文 参考訳(メタデータ) (2025-11-17T23:53:06Z) - SportR: A Benchmark for Multimodal Large Language Model Reasoning in Sports [21.410115837645318]
SportRは、スポーツインテリジェンスに必要な基本的な理由に基づいてMLLMを訓練し、評価するために設計された最初のマルチスポーツ大規模ベンチマークである。
私たちのベンチマークでは,5,017枚の画像と2,101本のビデオのデータセットが提供されている。
罰則の決定や戦術の説明など,多段階の推論を必要とする最も先進的なタスクに対して,我々は7,118の高品質な人間による思考の連鎖(Chain of Thought)アノテーションを提供する。
論文 参考訳(メタデータ) (2025-11-09T18:55:20Z) - Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models [78.32948112203228]
ビデオ理解はコンピュータビジョンにおける最も困難なフロンティアである。
近年,映像理解タスクにおいて,映像多時間モデルが顕著に出現している。
Surveyは、ビデオ-LMM能力を向上するための統一的なフレームワークを研究者や実践者に提供することを目的としている。
論文 参考訳(メタデータ) (2025-10-06T17:10:44Z) - Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。
我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。
その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-06-02T17:28:26Z) - Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning [58.86928947970342]
Embodied-Rは、知覚のための大規模視覚言語モデルと推論のための小規模言語モデルを組み合わせたフレームワークである。
わずか5kのエボダイドビデオサンプルのトレーニングの後、Embodied-Rと3B LMは最先端のマルチモーダル推論モデルと一致した。
Embodied-Rは、体系的分析や文脈統合のような創発的な思考パターンも示している。
論文 参考訳(メタデータ) (2025-04-17T06:16:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。