論文の概要: SportR: A Benchmark for Multimodal Large Language Model Reasoning in Sports
- arxiv url: http://arxiv.org/abs/2511.06499v2
- Date: Mon, 17 Nov 2025 03:11:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:22.004038
- Title: SportR: A Benchmark for Multimodal Large Language Model Reasoning in Sports
- Title(参考訳): SportR:スポーツにおけるマルチモーダル大言語モデル推論のためのベンチマーク
- Authors: Haotian Xia, Haonan Ge, Junbo Zou, Hyun Woo Choi, Xuebin Zhang, Danny Suradja, Botao Rui, Ethan Tran, Wendy Jin, Zhen Ye, Xiyang Lin, Christopher Lai, Shengjie Zhang, Junwen Miao, Shichao Chen, Rhys Tracy, Vicente Ordonez, Weining Shen, Hanjie Chen,
- Abstract要約: SportRは、スポーツインテリジェンスに必要な基本的な理由に基づいてMLLMを訓練し、評価するために設計された最初のマルチスポーツ大規模ベンチマークである。
私たちのベンチマークでは,5,017枚の画像と2,101本のビデオのデータセットが提供されている。
罰則の決定や戦術の説明など,多段階の推論を必要とする最も先進的なタスクに対して,我々は7,118の高品質な人間による思考の連鎖(Chain of Thought)アノテーションを提供する。
- 参考スコア(独自算出の注目度): 21.410115837645318
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deeply understanding sports requires an intricate blend of fine-grained visual perception and rule-based reasoning - a challenge that pushes the limits of current multimodal models. To succeed, models must master three critical capabilities: perceiving nuanced visual details, applying abstract sport rule knowledge, and grounding that knowledge in specific visual evidence. Current sports benchmarks either cover single sports or lack the detailed reasoning chains and precise visual grounding needed to robustly evaluate these core capabilities in a multi-sport context. To address this gap, we introduce SportR, the first multi-sports large-scale benchmark designed to train and evaluate MLLMs on the fundamental reasoning required for sports intelligence. Our benchmark provides a dataset of 5,017 images and 2,101 videos. To enable granular evaluation, we structure our benchmark around a progressive hierarchy of question-answer (QA) pairs designed to probe reasoning at increasing depths - from simple infraction identification to complex penalty prediction. For the most advanced tasks requiring multi-step reasoning, such as determining penalties or explaining tactics, we provide 7,118 high-quality, human-authored Chain of Thought (CoT) annotations. In addition, our benchmark incorporates both image and video modalities and provides manual bounding box annotations to test visual grounding in the image part directly. Extensive experiments demonstrate the profound difficulty of our benchmark. State-of-the-art baseline models perform poorly on our most challenging tasks. While training on our data via Supervised Fine-Tuning and Reinforcement Learning improves these scores, they remain relatively low, highlighting a significant gap in current model capabilities. SportR presents a new challenge for the community, providing a critical resource to drive future research in multimodal sports reasoning.
- Abstract(参考訳): スポーツを深く理解するには、きめ細かい視覚認識とルールに基づく推論の複雑なブレンドが必要です。
成功させるためには、モデルは3つの重要な能力を習得しなければならない: 微妙な視覚的詳細を知覚し、抽象的なスポーツルールの知識を適用し、その知識を特定の視覚的証拠に基礎付ける。
現在のスポーツベンチマークでは、単一のスポーツをカバーするか、詳細な推論チェーンが欠如しているか、マルチスポーツ環境でこれらのコア機能を堅牢に評価するために必要な正確なビジュアルグラウンドが欠落している。
このギャップに対処するために,スポーツインテリジェンスに必要な基本的理由に基づいてMLLMをトレーニングし,評価するために設計された,最初のマルチスポーツ大規模ベンチマークであるSportRを紹介する。
私たちのベンチマークでは,5,017枚の画像と2,101本のビデオのデータセットが提供されている。
より詳細な評価を可能にするため、我々は、単純な屈折識別から複雑なペナルティ予測まで、より深い深度での推論を探索するために設計された質問応答(QA)ペアの進行的階層を中心に、ベンチマークを構築した。
罰則の決定や戦術の説明などの多段階推論を必要とする最も高度なタスクに対して、我々は7,118の高品質な人間による思考の連鎖(CoT)アノテーションを提供する。
さらに,このベンチマークでは画像とビデオの両方のモダリティが組み込まれており,画像部分の視覚的接地を直接テストするための手動バウンディングボックスアノテーションが提供されている。
大規模な実験は、我々のベンチマークの難しさを示しています。
最先端のベースラインモデルは、最も困難なタスクではパフォーマンスが悪くなります。
Supervised Fine-Tuning and Reinforcement Learningによるデータトレーニングは、これらのスコアを改善する一方で、これらのスコアは比較的低いままであり、現在のモデル機能に大きなギャップがあることを強調します。
SportRはコミュニティに新しい課題を提示し、マルチモーダルスポーツ推論における将来の研究を促進する重要なリソースを提供する。
関連論文リスト
- STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - SPORTU: A Comprehensive Sports Understanding Benchmark for Multimodal Large Language Models [15.062299319625701]
SPORTUはマルチレベルスポーツ推論タスク間でMLLM(Multimodal Large Language Models)を評価するために設計されたベンチマークである。
SPORTUは2つの重要なコンポーネントで構成されている。 SPORTU-textは900の多重選択質問と、ルール理解と戦略理解のための人間アノテーションによる説明を含む。
SPORTUビデオは、7つの異なるスポーツで1,701本のスローモーションビデオクリップと12,048本のQAペアで構成され、マルチレベル推論を評価するように設計されている。
論文 参考訳(メタデータ) (2024-10-11T02:58:38Z) - Sports Intelligence: Assessing the Sports Understanding Capabilities of Language Models through Question Answering from Text to Video [5.885902974241053]
複雑なスポーツシナリオに対する推論は、現在のNLP技術にとって大きな課題となっている。
我々の評価は、基本的なルールや歴史的事実に関する単純なクエリから、複雑な文脈固有の推論まで多岐にわたる。
既存のスポーツデータセットの包括的概要に基づく新しいベンチマークを提案し,広範なエラー解析を行った。
論文 参考訳(メタデータ) (2024-06-21T05:57:50Z) - Sports-QA: A Large-Scale Video Question Answering Benchmark for Complex and Professional Sports [104.40202007324633]
スポーツビデオQAタスク用に特別に設計された最初のデータセットであるSports-QAを紹介する。
Sports-QAデータセットには、説明、時系列、因果関係、反事実条件など、さまざまな種類の質問が含まれている。
質問応答のための時間的情報の特定の尺度に自動的にフォーカスできる新しいオートフォーカス変換器(AFT)を提案する。
論文 参考訳(メタデータ) (2024-01-03T02:22:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。