論文の概要: SPORTU: A Comprehensive Sports Understanding Benchmark for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2410.08474v1
- Date: Sat, 19 Oct 2024 08:17:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 03:06:36.372607
- Title: SPORTU: A Comprehensive Sports Understanding Benchmark for Multimodal Large Language Models
- Title(参考訳): SportU: マルチモーダル大言語モデルのための総合スポーツ理解ベンチマーク
- Authors: Haotian Xia, Zhengbang Yang, Junbo Zou, Rhys Tracy, Yuqing Wang, Chi Lu, Christopher Lai, Yanjun He, Xun Shao, Zhuoqing Xie, Yuan-fang Wang, Weining Shen, Hanjie Chen,
- Abstract要約: SPORTUはマルチレベルスポーツ推論タスク間でMLLM(Multimodal Large Language Models)を評価するために設計されたベンチマークである。
SPORTUは2つの重要なコンポーネントで構成されている。 SPORTU-textは900の多重選択質問と、ルール理解と戦略理解のための人間アノテーションによる説明を含む。
SPORTUビデオは、7つの異なるスポーツで1,701本のスローモーションビデオクリップと12,048本のQAペアで構成され、マルチレベル推論を評価するように設計されている。
- 参考スコア(独自算出の注目度): 15.062299319625701
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) are advancing the ability to reason about complex sports scenarios by integrating textual and visual information. To comprehensively evaluate their capabilities, we introduce SPORTU, a benchmark designed to assess MLLMs across multi-level sports reasoning tasks. SPORTU comprises two key components: SPORTU-text, featuring 900 multiple-choice questions with human-annotated explanations for rule comprehension and strategy understanding. This component focuses on testing models' ability to reason about sports solely through question-answering (QA), without requiring visual inputs; SPORTU-video, consisting of 1,701 slow-motion video clips across 7 different sports and 12,048 QA pairs, designed to assess multi-level reasoning, from simple sports recognition to complex tasks like foul detection and rule application. We evaluate four prevalent LLMs mainly utilizing few-shot learning paradigms supplemented by chain-of-thought (CoT) prompting on the SPORTU-text part. We evaluate four LLMs using few-shot learning and chain-of-thought (CoT) prompting on SPORTU-text. GPT-4o achieves the highest accuracy of 71%, but still falls short of human-level performance, highlighting room for improvement in rule comprehension and reasoning. The evaluation for the SPORTU-video part includes 7 proprietary and 6 open-source MLLMs. Experiments show that models fall short on hard tasks that require deep reasoning and rule-based understanding. Claude-3.5-Sonnet performs the best with only 52.6% accuracy on the hard task, showing large room for improvement. We hope that SPORTU will serve as a critical step toward evaluating models' capabilities in sports understanding and reasoning.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、テキストと視覚情報を統合することで、複雑なスポーツシナリオを推論する能力を高めている。
SPORTUは,多段階スポーツ推論タスクにおけるMLLMの評価を行うベンチマークである。
SPORTUは2つの重要なコンポーネントで構成されている。 SPORTU-textは900の多重選択質問と、ルール理解と戦略理解のための人間アノテーションによる説明を含む。
このコンポーネントは、7つの異なるスポーツで1,701のスローモーションビデオクリップと12,048のQAペアで構成され、単純なスポーツ認識からファウル検出やルール適用のような複雑なタスクに至るまで、多段階の推論を評価するように設計されている。
筆者らは,SPORTUテキスト部分上で,チェーン・オブ・シント(CoT)で補足された少数ショット学習パラダイムを主に活用した4つのLLMの評価を行った。
SPORTU-text を用いて,少数ショット学習とチェーン・オブ・シント (CoT) による4つの LLM の評価を行った。
GPT-4oは71%の精度を達成しているが、それでも人間レベルの性能に欠けており、ルール理解と推論の改善の余地が強調されている。
SPORTUビデオ部の評価には、7つのプロプライエタリなMLLMと6つのオープンソースMLLMが含まれる。
実験によると、モデルは深い推論とルールベースの理解を必要とする難しいタスクに不足している。
Claude-3.5-Sonnetは52.6%の精度で最高の性能を発揮し、改善の余地は大きい。
SPORTUは、スポーツ理解と推論におけるモデルの能力を評価するための重要なステップとして機能することを願っている。
関連論文リスト
- LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs [103.0226977561914]
大規模言語モデルにおけるステップバイステップの視覚的推論を促進するための包括的フレームワークを提案する。
マルチステップ推論タスクの評価に特化して設計された視覚推論ベンチマークを導入する。
第二に,個々のステップの粒度で視覚的推論品質を評価する新しい指標を提案する。
第3に、マルチステップのカリキュラム学習アプローチを用いて学習したLlamaV-o1という新しいマルチモーダル視覚推論モデルを提案する。
論文 参考訳(メタデータ) (2025-01-10T18:59:51Z) - SCBench: A Sports Commentary Benchmark for Video LLMs [19.13963551534595]
我々は,ビデオ大言語モデル(ビデオLLM)のためのスポーツビデオ解説生成のためのベンチマークを開発する。
$textbfSCBench$はタスク用に特別に設計された6次元計量であり、GPTに基づく評価手法を提案する。
結果,InternVL-Chat-2は5.44で最高の性能を示し,1.04で2位となった。
論文 参考訳(メタデータ) (2024-12-23T15:13:56Z) - Towards Universal Soccer Video Understanding [58.889409980618396]
本稿では,サッカー理解のための包括的枠組みを開発することを目的とする。
これまでで最大のマルチモーダルサッカーデータセットである SoccerReplay-1988 を紹介する。
サッカー分野における最初の視覚言語基礎モデルであるMatchVisionについて述べる。
論文 参考訳(メタデータ) (2024-12-02T18:58:04Z) - OnlySportsLM: Optimizing Sports-Domain Language Models with SOTA Performance under Billion Parameters [3.2586293270380717]
本稿では,スポーツ関連データに特化して訓練された,小規模なドメイン特化言語モデルの可能性について検討する。
OnlySportsLMは以前の135M/360Mモデルよりも37.62%/34.08%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-08-30T22:39:35Z) - Sports Intelligence: Assessing the Sports Understanding Capabilities of Language Models through Question Answering from Text to Video [5.885902974241053]
複雑なスポーツシナリオに対する推論は、現在のNLP技術にとって大きな課題となっている。
我々の評価は、基本的なルールや歴史的事実に関する単純なクエリから、複雑な文脈固有の推論まで多岐にわたる。
既存のスポーツデータセットの包括的概要に基づく新しいベンチマークを提案し,広範なエラー解析を行った。
論文 参考訳(メタデータ) (2024-06-21T05:57:50Z) - SportQA: A Benchmark for Sports Understanding in Large Language Models [12.860652075730876]
SportQAは、スポーツ理解の文脈で大規模言語モデル(LLM)を評価するために特別に設計されたベンチマークである。
SportQAには3つの難易度で70,000以上の複数の質問が含まれている。
以上の結果から,LSMは基本的なスポーツ知識において有能な性能を示す一方で,より複雑なシナリオベースのスポーツ推論に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-24T17:12:10Z) - Sports-QA: A Large-Scale Video Question Answering Benchmark for Complex and Professional Sports [104.40202007324633]
スポーツビデオQAタスク用に特別に設計された最初のデータセットであるSports-QAを紹介する。
Sports-QAデータセットには、説明、時系列、因果関係、反事実条件など、さまざまな種類の質問が含まれている。
質問応答のための時間的情報の特定の尺度に自動的にフォーカスできる新しいオートフォーカス変換器(AFT)を提案する。
論文 参考訳(メタデータ) (2024-01-03T02:22:34Z) - Take a Step Back: Evoking Reasoning via Abstraction in Large Language
Models [122.19845578690466]
Step-Back Promptingは、LLMが抽象化を行い、特定の詳細を含むインスタンスから高レベルの概念と第一原則を導出することを可能にする。
推論を導くために概念と原則を用いることで、LLMはソリューションへの正しい推論パスに従うことで、その能力を大幅に向上します。
論文 参考訳(メタデータ) (2023-10-09T19:48:55Z) - TouchStone: Evaluating Vision-Language Models by Language Models [91.69776377214814]
本稿では,LVLMの様々な能力を総合的に評価するために,強大な言語モデルを用いた評価手法を提案する。
オープンワールドイメージと質問からなる包括的ビジュアル対話データセットTouchStoneを構築し,5つの主要な機能カテゴリと27のサブタスクをカバーした。
GPT-4のような強力なLVLMは、テキスト機能のみを活用することで、対話品質を効果的に評価できることを実証する。
論文 参考訳(メタデータ) (2023-08-31T17:52:04Z) - DeepSportradar-v1: Computer Vision Dataset for Sports Understanding with
High Quality Annotations [3.000319651350124]
本稿では,自動スポーツ理解のためのコンピュータビジョンタスク,データセット,ベンチマークスイートであるDeepSportradar-v1を紹介する。
このフレームワークの主な目的は、学術研究と現実世界の設定のギャップを埋めることである。
論文 参考訳(メタデータ) (2022-08-17T09:55:02Z) - A Survey on Video Action Recognition in Sports: Datasets, Methods and
Applications [60.3327085463545]
本稿では,スポーツ分析のための映像行動認識に関する調査を行う。
サッカー、バスケットボール、バレーボール、ホッケー、フィギュアスケート、体操、卓球、ダイビング、バドミントンなど10種以上のスポーツを紹介します。
本研究では,サッカー,バスケットボール,卓球,フィギュアスケート動作認識をサポートするPaddlePaddleを用いたツールボックスを開発した。
論文 参考訳(メタデータ) (2022-06-02T13:19:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。