論文の概要: Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports
- arxiv url: http://arxiv.org/abs/2603.09896v1
- Date: Tue, 10 Mar 2026 16:50:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.47516
- Title: Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports
- Title(参考訳): スポーツにおける空間知能のベンチマーク
- Authors: Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong,
- Abstract要約: スポーツシナリオに合わせた,初の大規模空間情報データセットであるCourtSIを提示する。
CourtSIには100万以上のQAペアが含まれており、空間的計数、距離測定、局所化、関係推論を網羅する全体分類の下で構成されている。
また,厳密な検証を伴う3,686のQAペアからなる高品質評価ベンチマークであるCourtSI-Benchを紹介する。
- 参考スコア(独自算出の注目度): 46.83689976902389
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sports have long attracted broad attention as they push the limits of human physical and cognitive capabilities. Amid growing interest in spatial intelligence for vision-language models (VLMs), sports provide a natural testbed for understanding high-intensity human motion and dynamic object interactions. To this end, we present CourtSI, the first large-scale spatial intelligence dataset tailored to sports scenarios. CourtSI contains over 1M QA pairs, organized under a holistic taxonomy that systematically covers spatial counting, distance measurement, localization, and relational reasoning, across representative net sports including badminton, tennis, and table tennis. Leveraging well-defined court geometry as metric anchors, we develop a semi-automatic data engine to reconstruct sports scenes, enabling scalable curation of CourtSI. In addition, we introduce CourtSI-Bench, a high-quality evaluation benchmark comprising 3,686 QA pairs with rigorous human verification. We evaluate 25 proprietary and open-source VLMs on CourtSI-Bench, revealing a remaining human-AI performance gap and limited generalization from existing spatial intelligence benchmarks. These findings indicate that sports scenarios expose limitations in spatial intelligence capabilities captured by existing benchmarks. Further, fine-tuning Qwen3-VL-8B on CourtSI improves accuracy on CourtSI-Bench by 23.5 percentage points. The adapted model also generalizes effectively to CourtSI-Ext, an evaluation set built on a similar but unseen sport, and demonstrates enhanced spatial-aware commentary generation. Together, these findings demonstrate that CourtSI provides a scalable pathway toward advancing spatial intelligence of VLMs in sports.
- Abstract(参考訳): スポーツは、人間の身体的および認知能力の限界を押し上げるにつれて、長い間広く注目を集めてきた。
視覚言語モデル(VLM)の空間知能への関心が高まっている中で、スポーツは高強度の人間の動きと動的物体の相互作用を理解するための自然なテストベッドを提供する。
この目的のために,スポーツシナリオに適した最初の大規模空間情報データセットであるCourtSIを提案する。
CourtSIには100万以上のQAペアが含まれており、空間カウント、距離測定、ローカライゼーション、リレーショナル推論を体系的に網羅し、バドミントン、テニス、卓球などの代表的ネットスポーツを網羅している。
スポーツシーンを再構築する半自動データエンジンを開発し,CourtSIのスケーラブルなキュレーションを実現する。
さらに,厳密な検証を伴う3,686のQAペアからなる高品質評価ベンチマークであるCourtSI-Benchを紹介する。
我々はCourtSI-Bench上で25のプロプライエタリかつオープンソースなVLMを評価し、既存の空間知能ベンチマークによる人間とAIのパフォーマンスギャップと限定的な一般化を明らかにした。
これらの結果から,スポーツシナリオは,既存のベンチマークで捉えた空間知能の限界を明らかにすることが示唆された。
さらに、CourtSI上の微調整Qwen3-VL-8BはCourtSI-Benchの精度を23.5ポイント向上する。
適応モデルはまた、類似のスポーツ上に構築された評価セットであるCourtSI-Extを効果的に一般化し、空間認識のコメント生成の強化を示す。
これらの結果から,CourtSIはスポーツにおけるVLMの空間的インテリジェンスを促進するためのスケーラブルな経路を提供することが示された。
関連論文リスト
- EscherVerse: An Open World Benchmark and Dataset for Teleo-Spatial Intelligence with Physical-Dynamic and Intent-Driven Understanding [56.89359230139883]
本稿では,Teleo-Spatial Intelligence(TSI)について紹介する。
本稿では、大規模なオープンワールドベンチマーク(Escher-Bench)、データセット(Escher-35k)、モデル(Escherシリーズ)からなるEscherVerseを紹介する。
これはIntent-Driven Reasoningを体系的に評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2026-01-04T14:42:39Z) - From Indoor to Open World: Revealing the Spatial Reasoning Gap in MLLMs [65.04549036809557]
我々は、ステレオカメラ、LiDAR、IMU/GPSセンサーで撮影された歩行者の視線映像から構築したベンチマークを紹介する。
このデータセットは、計量的に正確な3D情報を提供し、空間的推論質問の自動生成を可能にする。
評価の結果、構造化屋内ベンチマークで観測された性能向上は、オープンワールド環境では消滅することが明らかとなった。
論文 参考訳(メタデータ) (2025-12-22T18:58:12Z) - Spatial-DISE: A Unified Benchmark for Evaluating Spatial Reasoning in Vision-Language Models [21.28937516885804]
我々は,タスクを4つの基本四分節に分類する認知的基盤の分類に基づく統合ベンチマークtextbfSpatial-DISEを提案する。
データ不足の問題に対処するため,多様かつ検証可能な空間的推論問題を生成するスケーラブルで自動化されたパイプラインを開発した。
論文 参考訳(メタデータ) (2025-10-15T10:44:01Z) - How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective [103.44502230776352]
視覚言語モデル(VLM)における視覚空間推論(VSR)の系統的研究について述べる。
空間インテリジェンスを3つのレベル,すなわち基本的な知覚,空間理解,空間計画,および空間インテリジェンスベンチマークSIBenchに分類した。
論文 参考訳(メタデータ) (2025-09-23T12:00:14Z) - Holistic Evaluation of Multimodal LLMs on Spatial Intelligence [81.2547965083228]
空間情報を用いたマルチモーダルLLMの総合評価のためのEASIを提案する。
われわれはこの調査を8つの主要なベンチマークで実施し、総トークン数は100億を超えている。
実験により、GPT-5は空間知能(SI)において前例のない強みを示すが、(2)多種多様なSIタスクにおいて人的性能に欠けることが明らかとなった。
論文 参考訳(メタデータ) (2025-08-18T17:55:17Z) - SITE: towards Spatial Intelligence Thorough Evaluation [121.1493852562597]
空間知能 (Spatial Intelligence, SI) は、空間的関係の可視化、操作、推論を含む認知能力を表す。
SI Thorough Evaluationに向けたベンチマークデータセットであるSITEを紹介する。
ベンチマークの計算には、31の既存のデータセットに関するボトムアップ調査と、認知科学の3つの分類システムに基づくトップダウン戦略を組み合わせる。
論文 参考訳(メタデータ) (2025-05-08T17:45:44Z) - Sports Intelligence: Assessing the Sports Understanding Capabilities of Language Models through Question Answering from Text to Video [5.885902974241053]
複雑なスポーツシナリオに対する推論は、現在のNLP技術にとって大きな課題となっている。
我々の評価は、基本的なルールや歴史的事実に関する単純なクエリから、複雑な文脈固有の推論まで多岐にわたる。
既存のスポーツデータセットの包括的概要に基づく新しいベンチマークを提案し,広範なエラー解析を行った。
論文 参考訳(メタデータ) (2024-06-21T05:57:50Z) - Learning Sparse Temporal Video Mapping for Action Quality Assessment in
Floor Gymnastics [26.717033245063092]
体操フロアルーチンを組み込んだ新しいデータセットAGF-Olympicsを導入する。
本稿では,密集した特徴空間を複素結合を解離してスパース表現にマッピングする識別的注意モジュールを提案する。
論文 参考訳(メタデータ) (2023-01-15T14:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。