論文の概要: SPORTU: A Comprehensive Sports Understanding Benchmark for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2410.08474v2
- Date: Sat, 19 Oct 2024 08:17:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:14:56.935938
- Title: SPORTU: A Comprehensive Sports Understanding Benchmark for Multimodal Large Language Models
- Title(参考訳): SportU: マルチモーダル大言語モデルのための総合スポーツ理解ベンチマーク
- Authors: Haotian Xia, Zhengbang Yang, Junbo Zou, Rhys Tracy, Yuqing Wang, Chi Lu, Christopher Lai, Yanjun He, Xun Shao, Zhuoqing Xie, Yuan-fang Wang, Weining Shen, Hanjie Chen,
- Abstract要約: SPORTUはマルチレベルスポーツ推論タスク間でMLLM(Multimodal Large Language Models)を評価するために設計されたベンチマークである。
SPORTUは2つの重要なコンポーネントで構成されている。 SPORTU-textは900の多重選択質問と、ルール理解と戦略理解のための人間アノテーションによる説明を含む。
SPORTUビデオは、7つの異なるスポーツで1,701本のスローモーションビデオクリップと12,048本のQAペアで構成され、マルチレベル推論を評価するように設計されている。
- 参考スコア(独自算出の注目度): 15.062299319625701
- License:
- Abstract: Multimodal Large Language Models (MLLMs) are advancing the ability to reason about complex sports scenarios by integrating textual and visual information. To comprehensively evaluate their capabilities, we introduce SPORTU, a benchmark designed to assess MLLMs across multi-level sports reasoning tasks. SPORTU comprises two key components: SPORTU-text, featuring 900 multiple-choice questions with human-annotated explanations for rule comprehension and strategy understanding. This component focuses on testing models' ability to reason about sports solely through question-answering (QA), without requiring visual inputs; SPORTU-video, consisting of 1,701 slow-motion video clips across 7 different sports and 12,048 QA pairs, designed to assess multi-level reasoning, from simple sports recognition to complex tasks like foul detection and rule application. We evaluate four prevalent LLMs mainly utilizing few-shot learning paradigms supplemented by chain-of-thought (CoT) prompting on the SPORTU-text part. We evaluate four LLMs using few-shot learning and chain-of-thought (CoT) prompting on SPORTU-text. GPT-4o achieves the highest accuracy of 71%, but still falls short of human-level performance, highlighting room for improvement in rule comprehension and reasoning. The evaluation for the SPORTU-video part includes 7 proprietary and 6 open-source MLLMs. Experiments show that models fall short on hard tasks that require deep reasoning and rule-based understanding. Claude-3.5-Sonnet performs the best with only 52.6% accuracy on the hard task, showing large room for improvement. We hope that SPORTU will serve as a critical step toward evaluating models' capabilities in sports understanding and reasoning.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、テキストと視覚情報を統合することで、複雑なスポーツシナリオを推論する能力を高めている。
SPORTUは,多段階スポーツ推論タスクにおけるMLLMの評価を行うベンチマークである。
SPORTUは2つの重要なコンポーネントで構成されている。 SPORTU-textは900の多重選択質問と、ルール理解と戦略理解のための人間アノテーションによる説明を含む。
このコンポーネントは、7つの異なるスポーツで1,701のスローモーションビデオクリップと12,048のQAペアで構成され、単純なスポーツ認識からファウル検出やルール適用のような複雑なタスクに至るまで、多段階の推論を評価するように設計されている。
筆者らは,SPORTUテキスト部分上で,チェーン・オブ・シント(CoT)で補足された少数ショット学習パラダイムを主に活用した4つのLLMの評価を行った。
SPORTU-text を用いて,少数ショット学習とチェーン・オブ・シント (CoT) による4つの LLM の評価を行った。
GPT-4oは71%の精度を達成しているが、それでも人間レベルの性能に欠けており、ルール理解と推論の改善の余地が強調されている。
SPORTUビデオ部の評価には、7つのプロプライエタリなMLLMと6つのオープンソースMLLMが含まれる。
実験によると、モデルは深い推論とルールベースの理解を必要とする難しいタスクに不足している。
Claude-3.5-Sonnetは52.6%の精度で最高の性能を発揮し、改善の余地は大きい。
SPORTUは、スポーツ理解と推論におけるモデルの能力を評価するための重要なステップとして機能することを願っている。
関連論文リスト
- Sports Intelligence: Assessing the Sports Understanding Capabilities of Language Models through Question Answering from Text to Video [5.885902974241053]
複雑なスポーツシナリオに対する推論は、現在のNLP技術にとって大きな課題となっている。
我々の評価は、基本的なルールや歴史的事実に関する単純なクエリから、複雑な文脈固有の推論まで多岐にわたる。
既存のスポーツデータセットの包括的概要に基づく新しいベンチマークを提案し,広範なエラー解析を行った。
論文 参考訳(メタデータ) (2024-06-21T05:57:50Z) - When Reasoning Meets Information Aggregation: A Case Study with Sports Narratives [46.04238534224658]
スポーツ物語の分析を LLM が要求する推論における情報集約の重要性について検討する。
我々はNBAの実際のバスケットボールデータを用いて総合的な実験を行い、ゲーム物語を合成する新しい手法であるSportsGenを提示する。
その結果, GPT-4oを含むほとんどのモデルでは, 頻繁な得点パターンのため, バスケットボールの得点を正確に集計することができないことが判明した。
論文 参考訳(メタデータ) (2024-06-17T20:49:35Z) - Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [118.08008540513596]
Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。
我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。
我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-31T17:59:47Z) - SportQA: A Benchmark for Sports Understanding in Large Language Models [12.860652075730876]
SportQAは、スポーツ理解の文脈で大規模言語モデル(LLM)を評価するために特別に設計されたベンチマークである。
SportQAには3つの難易度で70,000以上の複数の質問が含まれている。
以上の結果から,LSMは基本的なスポーツ知識において有能な性能を示す一方で,より複雑なシナリオベースのスポーツ推論に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-24T17:12:10Z) - Sports-QA: A Large-Scale Video Question Answering Benchmark for Complex
and Professional Sports [90.79212954022218]
スポーツビデオQAタスク用に特別に設計された最初のデータセットであるSports-QAを紹介する。
Sports-QAデータセットには、説明、時系列、因果関係、反事実条件など、さまざまな種類の質問が含まれている。
質問応答のための時間的情報の特定の尺度に自動的にフォーカスできる新しいオートフォーカス変換器(AFT)を提案する。
論文 参考訳(メタデータ) (2024-01-03T02:22:34Z) - Take a Step Back: Evoking Reasoning via Abstraction in Large Language
Models [122.19845578690466]
Step-Back Promptingは、LLMが抽象化を行い、特定の詳細を含むインスタンスから高レベルの概念と第一原則を導出することを可能にする。
推論を導くために概念と原則を用いることで、LLMはソリューションへの正しい推論パスに従うことで、その能力を大幅に向上します。
論文 参考訳(メタデータ) (2023-10-09T19:48:55Z) - TouchStone: Evaluating Vision-Language Models by Language Models [91.69776377214814]
本稿では,LVLMの様々な能力を総合的に評価するために,強大な言語モデルを用いた評価手法を提案する。
オープンワールドイメージと質問からなる包括的ビジュアル対話データセットTouchStoneを構築し,5つの主要な機能カテゴリと27のサブタスクをカバーした。
GPT-4のような強力なLVLMは、テキスト機能のみを活用することで、対話品質を効果的に評価できることを実証する。
論文 参考訳(メタデータ) (2023-08-31T17:52:04Z) - VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。
我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。
VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文 参考訳(メタデータ) (2023-05-22T17:51:22Z) - DeepSportradar-v1: Computer Vision Dataset for Sports Understanding with
High Quality Annotations [3.000319651350124]
本稿では,自動スポーツ理解のためのコンピュータビジョンタスク,データセット,ベンチマークスイートであるDeepSportradar-v1を紹介する。
このフレームワークの主な目的は、学術研究と現実世界の設定のギャップを埋めることである。
論文 参考訳(メタデータ) (2022-08-17T09:55:02Z) - A Survey on Video Action Recognition in Sports: Datasets, Methods and
Applications [60.3327085463545]
本稿では,スポーツ分析のための映像行動認識に関する調査を行う。
サッカー、バスケットボール、バレーボール、ホッケー、フィギュアスケート、体操、卓球、ダイビング、バドミントンなど10種以上のスポーツを紹介します。
本研究では,サッカー,バスケットボール,卓球,フィギュアスケート動作認識をサポートするPaddlePaddleを用いたツールボックスを開発した。
論文 参考訳(メタデータ) (2022-06-02T13:19:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。