Fugu-MT 論文翻訳(概要): SPORTU: A Comprehensive Sports Understanding Benchmark for Multimodal Large Language Models

論文の概要: SPORTU: A Comprehensive Sports Understanding Benchmark for Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2410.08474v2
Date: Sat, 19 Oct 2024 08:17:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-31 03:06:36.369736
Title: SPORTU: A Comprehensive Sports Understanding Benchmark for Multimodal Large Language Models
Title（参考訳）: SportU: マルチモーダル大言語モデルのための総合スポーツ理解ベンチマーク
Authors: Haotian Xia, Zhengbang Yang, Junbo Zou, Rhys Tracy, Yuqing Wang, Chi Lu, Christopher Lai, Yanjun He, Xun Shao, Zhuoqing Xie, Yuan-fang Wang, Weining Shen, Hanjie Chen,
Abstract要約: SPORTUはマルチレベルスポーツ推論タスク間でMLLM(Multimodal Large Language Models)を評価するために設計されたベンチマークである。 SPORTUは2つの重要なコンポーネントで構成されている。 SPORTU-textは900の多重選択質問と、ルール理解と戦略理解のための人間アノテーションによる説明を含む。 SPORTUビデオは、7つの異なるスポーツで1,701本のスローモーションビデオクリップと12,048本のQAペアで構成され、マルチレベル推論を評価するように設計されている。
参考スコア（独自算出の注目度）: 15.062299319625701
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Multimodal Large Language Models (MLLMs) are advancing the ability to reason about complex sports scenarios by integrating textual and visual information. To comprehensively evaluate their capabilities, we introduce SPORTU, a benchmark designed to assess MLLMs across multi-level sports reasoning tasks. SPORTU comprises two key components: SPORTU-text, featuring 900 multiple-choice questions with human-annotated explanations for rule comprehension and strategy understanding. This component focuses on testing models' ability to reason about sports solely through question-answering (QA), without requiring visual inputs; SPORTU-video, consisting of 1,701 slow-motion video clips across 7 different sports and 12,048 QA pairs, designed to assess multi-level reasoning, from simple sports recognition to complex tasks like foul detection and rule application. We evaluate four prevalent LLMs mainly utilizing few-shot learning paradigms supplemented by chain-of-thought (CoT) prompting on the SPORTU-text part. We evaluate four LLMs using few-shot learning and chain-of-thought (CoT) prompting on SPORTU-text. GPT-4o achieves the highest accuracy of 71%, but still falls short of human-level performance, highlighting room for improvement in rule comprehension and reasoning. The evaluation for the SPORTU-video part includes 7 proprietary and 6 open-source MLLMs. Experiments show that models fall short on hard tasks that require deep reasoning and rule-based understanding. Claude-3.5-Sonnet performs the best with only 52.6% accuracy on the hard task, showing large room for improvement. We hope that SPORTU will serve as a critical step toward evaluating models' capabilities in sports understanding and reasoning.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)は、テキストと視覚情報を統合することで、複雑なスポーツシナリオを推論する能力を高めている。 SPORTUは,多段階スポーツ推論タスクにおけるMLLMの評価を行うベンチマークである。 SPORTUは2つの重要なコンポーネントで構成されている。 SPORTU-textは900の多重選択質問と、ルール理解と戦略理解のための人間アノテーションによる説明を含む。このコンポーネントは、7つの異なるスポーツで1,701のスローモーションビデオクリップと12,048のQAペアで構成され、単純なスポーツ認識からファウル検出やルール適用のような複雑なタスクに至るまで、多段階の推論を評価するように設計されている。筆者らは,SPORTUテキスト部分上で,チェーン・オブ・シント(CoT)で補足された少数ショット学習パラダイムを主に活用した4つのLLMの評価を行った。 SPORTU-text を用いて,少数ショット学習とチェーン・オブ・シント (CoT) による4つの LLM の評価を行った。 GPT-4oは71%の精度を達成しているが、それでも人間レベルの性能に欠けており、ルール理解と推論の改善の余地が強調されている。 SPORTUビデオ部の評価には、7つのプロプライエタリなMLLMと6つのオープンソースMLLMが含まれる。実験によると、モデルは深い推論とルールベースの理解を必要とする難しいタスクに不足している。 Claude-3.5-Sonnetは52.6%の精度で最高の性能を発揮し、改善の余地は大きい。 SPORTUは、スポーツ理解と推論におけるモデルの能力を評価するための重要なステップとして機能することを願っている。

関連論文リスト

Learning Skill-Attributes for Transferable Assessment in Video [56.813876909367856]
ビデオによるスキル評価は、人の身体的パフォーマンスの品質を評価し、何がより良くできるかを説明する。当社のCrossTrainerアプローチでは,バランス,コントロール,手の位置決めといったスキル属性が検出される。人間のスキルを表わす行動の共有を抽象化することにより,提案した映像表現は,既存のテクニックの配列よりもはるかに優れている。
論文参考訳（メタデータ） (2025-11-17T23:53:06Z)
DeepSport: A Multimodal Large Language Model for Comprehensive Sports Video Reasoning via Agentic Reinforcement Learning [25.001089287899998]
DeepSportは、マルチタスク、マルチスポーツビデオ理解のために設計された、エンドツーエンドでトレーニングされた最初のMLLMフレームワークである。我々の研究は、多様なスポーツの複雑さに対処するために、ドメイン固有のビデオ推論のための新しい基盤を確立する。
論文参考訳（メタデータ） (2025-11-17T02:57:15Z)
MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs [61.70050081221131]
MVU-EvalはMLLMのマルチビデオ理解を評価するための最初の包括的なベンチマークである。私たちのMVU-Evalは、主に8つのコア能力を評価し、4,959本のビデオにまたがる1,824本の厳密にキュレートされた質問応答ペアを評価します。これらの機能は、自律システムにおけるマルチセンサー合成や、クロスアングルスポーツ分析のような現実世界のアプリケーションと厳格に一致している。
論文参考訳（メタデータ） (2025-11-10T16:02:33Z)
SportR: A Benchmark for Multimodal Large Language Model Reasoning in Sports [21.410115837645318]
SportRは、スポーツインテリジェンスに必要な基本的な理由に基づいてMLLMを訓練し、評価するために設計された最初のマルチスポーツ大規模ベンチマークである。私たちのベンチマークでは,5,017枚の画像と2,101本のビデオのデータセットが提供されている。罰則の決定や戦術の説明など,多段階の推論を必要とする最も先進的なタスクに対して,我々は7,118の高品質な人間による思考の連鎖(Chain of Thought)アノテーションを提供する。
論文参考訳（メタデータ） (2025-11-09T18:55:20Z)
Video-Holmes: Can MLLM Think Like Holmes for Complex Video Reasoning? [56.06537213958482]
本稿では,MLLMの複雑なビデオ推論能力を評価するためのベンチマークであるVideo-Holmesを紹介する。 Video-Holmesは270本の手動注釈付きサスペンス短編映画から1,837の質問で構成されている。最新のMLLMを包括的に評価した結果,これらのモデルは視覚的知覚に優れるが,情報の統合にはかなりの困難が伴うことが明らかとなった。
論文参考訳（メタデータ） (2025-05-27T16:05:01Z)
Seeing from Another Perspective: Evaluating Multi-View Understanding in MLLMs [41.072699990427374]
マルチビュー理解は、マルチモーダル大言語モデル(MLLM)において、エンボディエージェントとして使用されるための基本的な課題である。我々は、90の現実世界のシーンに2,100人以上の注意深い注釈付き質問応答対のベンチマークであるAll-Angles Benchを提案する。 Gemini-2.0-Flash, Claude-3.7-Sonnet, GPT-4o など27のMLLMを人体評価器に対してベンチマークした結果, 性能差は顕著であった。
論文参考訳（メタデータ） (2025-04-21T17:59:53Z)
VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文参考訳（メタデータ） (2025-02-25T23:36:19Z)
LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs [103.0226977561914]
大規模言語モデルにおけるステップバイステップの視覚的推論を促進するための包括的フレームワークを提案する。マルチステップ推論タスクの評価に特化して設計された視覚推論ベンチマークを導入する。第二に,個々のステップの粒度で視覚的推論品質を評価する新しい指標を提案する。第3に、マルチステップのカリキュラム学習アプローチを用いて学習したLlamaV-o1という新しいマルチモーダル視覚推論モデルを提案する。
論文参考訳（メタデータ） (2025-01-10T18:59:51Z)
SCBench: A Sports Commentary Benchmark for Video LLMs [19.13963551534595]
我々は,ビデオ大言語モデル(ビデオLLM)のためのスポーツビデオ解説生成のためのベンチマークを開発する。 $textbfSCBench$はタスク用に特別に設計された6次元計量であり、GPTに基づく評価手法を提案する。結果,InternVL-Chat-2は5.44で最高の性能を示し,1.04で2位となった。
論文参考訳（メタデータ） (2024-12-23T15:13:56Z)
Deep learning for action spotting in association football videos [64.10841325879996]
SoccerNetイニシアチブは毎年の課題を組織し、世界中の参加者が最先端のパフォーマンスを達成するために競う。本稿では,スポーツにおけるアクションスポッティングの歴史を,2018年の課題の創出から,現在の研究・スポーツ産業における役割まで遡る。
論文参考訳（メタデータ） (2024-10-02T07:56:15Z)
OnlySportsLM: Optimizing Sports-Domain Language Models with SOTA Performance under Billion Parameters [3.2586293270380717]
本稿では,スポーツ関連データに特化して訓練された,小規模なドメイン特化言語モデルの可能性について検討する。 OnlySportsLMは以前の135M/360Mモデルよりも37.62%/34.08%の精度向上を実現している。
論文参考訳（メタデータ） (2024-08-30T22:39:35Z)
Sports Intelligence: Assessing the Sports Understanding Capabilities of Language Models through Question Answering from Text to Video [5.885902974241053]
複雑なスポーツシナリオに対する推論は、現在のNLP技術にとって大きな課題となっている。我々の評価は、基本的なルールや歴史的事実に関する単純なクエリから、複雑な文脈固有の推論まで多岐にわたる。既存のスポーツデータセットの包括的概要に基づく新しいベンチマークを提案し,広範なエラー解析を行った。
論文参考訳（メタデータ） (2024-06-21T05:57:50Z)
Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [118.08008540513596]
Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
論文参考訳（メタデータ） (2024-05-31T17:59:47Z)
SportQA: A Benchmark for Sports Understanding in Large Language Models [12.860652075730876]
SportQAは、スポーツ理解の文脈で大規模言語モデル(LLM)を評価するために特別に設計されたベンチマークである。 SportQAには3つの難易度で70,000以上の複数の質問が含まれている。以上の結果から,LSMは基本的なスポーツ知識において有能な性能を示す一方で,より複雑なシナリオベースのスポーツ推論に苦慮していることが明らかとなった。
論文参考訳（メタデータ） (2024-02-24T17:12:10Z)
Sports-QA: A Large-Scale Video Question Answering Benchmark for Complex and Professional Sports [90.79212954022218]
スポーツビデオQAタスク用に特別に設計された最初のデータセットであるSports-QAを紹介する。 Sports-QAデータセットには、説明、時系列、因果関係、反事実条件など、さまざまな種類の質問が含まれている。質問応答のための時間的情報の特定の尺度に自動的にフォーカスできる新しいオートフォーカス変換器(AFT)を提案する。
論文参考訳（メタデータ） (2024-01-03T02:22:34Z)
Take a Step Back: Evoking Reasoning via Abstraction in Large Language Models [122.19845578690466]
Step-Back Promptingは、LLMが抽象化を行い、特定の詳細を含むインスタンスから高レベルの概念と第一原則を導出することを可能にする。推論を導くために概念と原則を用いることで、LLMはソリューションへの正しい推論パスに従うことで、その能力を大幅に向上します。
論文参考訳（メタデータ） (2023-10-09T19:48:55Z)
TouchStone: Evaluating Vision-Language Models by Language Models [91.69776377214814]
本稿では,LVLMの様々な能力を総合的に評価するために,強大な言語モデルを用いた評価手法を提案する。オープンワールドイメージと質問からなる包括的ビジュアル対話データセットTouchStoneを構築し,5つの主要な機能カテゴリと27のサブタスクをカバーした。 GPT-4のような強力なLVLMは、テキスト機能のみを活用することで、対話品質を効果的に評価できることを実証する。
論文参考訳（メタデータ） (2023-08-31T17:52:04Z)
DeepSportradar-v1: Computer Vision Dataset for Sports Understanding with High Quality Annotations [3.000319651350124]
本稿では,自動スポーツ理解のためのコンピュータビジョンタスク,データセット,ベンチマークスイートであるDeepSportradar-v1を紹介する。このフレームワークの主な目的は、学術研究と現実世界の設定のギャップを埋めることである。
論文参考訳（メタデータ） (2022-08-17T09:55:02Z)
A Survey on Video Action Recognition in Sports: Datasets, Methods and Applications [60.3327085463545]
本稿では,スポーツ分析のための映像行動認識に関する調査を行う。サッカー、バスケットボール、バレーボール、ホッケー、フィギュアスケート、体操、卓球、ダイビング、バドミントンなど10種以上のスポーツを紹介します。本研究では,サッカー,バスケットボール,卓球,フィギュアスケート動作認識をサポートするPaddlePaddleを用いたツールボックスを開発した。
論文参考訳（メタデータ） (2022-06-02T13:19:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。