Fugu-MT 論文翻訳(概要): SportQA: A Benchmark for Sports Understanding in Large Language Models

論文の概要: SportQA: A Benchmark for Sports Understanding in Large Language Models

arxiv url: http://arxiv.org/abs/2402.15862v1
Date: Sat, 24 Feb 2024 17:12:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-27 16:44:46.479840
Title: SportQA: A Benchmark for Sports Understanding in Large Language Models
Title（参考訳）: SportQA: 大規模言語モデルにおけるスポーツ理解のベンチマーク
Authors: Haotian Xia, Zhengbang Yang, Yuqing Wang, Rhys Tracy, Yun Zhao, Dongdong Huang, Zezhi Chen, Yan Zhu, Yuan-fang Wang, Weining Shen
Abstract要約: SportQAは、スポーツ理解の文脈で大規模言語モデル(LLM)を評価するために特別に設計されたベンチマークである。 SportQAには3つの難易度で70,000以上の複数の質問が含まれている。以上の結果から,LSMは基本的なスポーツ知識において有能な性能を示す一方で,より複雑なシナリオベースのスポーツ推論に苦慮していることが明らかとなった。
参考スコア（独自算出の注目度）: 13.288566908987129
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: A deep understanding of sports, a field rich in strategic and dynamic content, is crucial for advancing Natural Language Processing (NLP). This holds particular significance in the context of evaluating and advancing Large Language Models (LLMs), given the existing gap in specialized benchmarks. To bridge this gap, we introduce SportQA, a novel benchmark specifically designed for evaluating LLMs in the context of sports understanding. SportQA encompasses over 70,000 multiple-choice questions across three distinct difficulty levels, each targeting different aspects of sports knowledge from basic historical facts to intricate, scenario-based reasoning tasks. We conducted a thorough evaluation of prevalent LLMs, mainly utilizing few-shot learning paradigms supplemented by chain-of-thought (CoT) prompting. Our results reveal that while LLMs exhibit competent performance in basic sports knowledge, they struggle with more complex, scenario-based sports reasoning, lagging behind human expertise. The introduction of SportQA marks a significant step forward in NLP, offering a tool for assessing and enhancing sports understanding in LLMs.
Abstract（参考訳）: 戦略的・動的コンテンツに富んだ分野であるスポーツの深い理解は、自然言語処理(NLP)の推進に不可欠である。これは、特別なベンチマークにおける既存のギャップを考えると、LLM(Large Language Models)の評価と発展という文脈において特に重要である。このギャップを埋めるために、スポーツ理解の文脈でLLMを評価するために特別に設計された新しいベンチマークであるSportQAを紹介する。 SportQAには3つの難易度で70,000以上の複数の質問が含まれており、それぞれが基本的な歴史的事実から複雑なシナリオベースの推論タスクまで、スポーツ知識のさまざまな側面をターゲットにしている。主に,チェーン・オブ・シークレット(CoT)のプロンプトで補足された少数ショット学習パラダイムを利用して,広く普及しているLLMの徹底的な評価を行った。以上の結果から,LSMは基本的なスポーツ知識において有能なパフォーマンスを示す一方で,より複雑でシナリオベースのスポーツ推論に苦しむことが明らかとなった。 SportQAの導入は、LPMにおけるスポーツ理解を評価し、強化するためのツールを提供する、NLPにおける重要な一歩である。

関連論文リスト

Who is a Better Player: LLM against LLM [53.46608216197315]
本稿では,大規模言語モデル (LLM) の総合的な性能を評価するための対戦型ベンチマークフレームワークを提案する。広範にプレイされている5つのゲームをサポートし,20のLDMを駆使したプレーヤーを対象とする,特別な評価プラットフォームであるQi Townを紹介した。
論文参考訳（メタデータ） (2025-08-05T06:41:47Z)
KnowLogic: A Benchmark for Commonsense Reasoning via Knowledge-Driven Data Synthesis [33.72114830484246]
知識駆動型合成データ戦略によって生成されたベンチマークであるKnowLogicを紹介する。 KnowLogicは多様な常識知識、もっともらしいシナリオ、そして様々なタイプの論理的推論を統合している。私たちのベンチマークは、様々なドメインで3000のバイリンガル(中国語と英語)質問で構成されています。
論文参考訳（メタデータ） (2025-03-08T13:40:10Z)
TextGames: Learning to Self-Play Text-Based Puzzle Games via Language Model Reasoning [26.680686158061192]
推論は大規模言語モデル(LLM)の基本機能である本稿では,テキストベースのゲームで LLM を評価するためのベンチマークである TextGames を紹介する。以上の結果から,LSMは最も容易かつ中程度の問題に対処する能力を示すが,より困難な課題に直面することが明らかとなった。
論文参考訳（メタデータ） (2025-02-25T18:26:48Z)
LLM The Genius Paradox: A Linguistic and Math Expert's Struggle with Simple Word-based Counting Problems [28.72485319617863]
LLMは、人間が扱いやすいようないくつかの基本的なタスク、例えば単語トラウベリーの文字数rを数えるのに苦労する。我々は,高度な数学的およびコーディング推論能力の伝達可能性について,特殊なLCMから単純なカウントタスクまでの測定を行う。微調整や文脈内学習といった戦略と比較すると、係り受け推論はLLMのタスクをより知覚するのに役立つ最も堅牢で効率的な方法であることがわかる。
論文参考訳（メタデータ） (2024-10-18T04:17:16Z)
SPORTU: A Comprehensive Sports Understanding Benchmark for Multimodal Large Language Models [15.062299319625701]
SPORTUはマルチレベルスポーツ推論タスク間でMLLM(Multimodal Large Language Models)を評価するために設計されたベンチマークである。 SPORTUは2つの重要なコンポーネントで構成されている。 SPORTU-textは900の多重選択質問と、ルール理解と戦略理解のための人間アノテーションによる説明を含む。 SPORTUビデオは、7つの異なるスポーツで1,701本のスローモーションビデオクリップと12,048本のQAペアで構成され、マルチレベル推論を評価するように設計されている。
論文参考訳（メタデータ） (2024-10-11T02:58:38Z)
Sports Intelligence: Assessing the Sports Understanding Capabilities of Language Models through Question Answering from Text to Video [5.885902974241053]
複雑なスポーツシナリオに対する推論は、現在のNLP技術にとって大きな課題となっている。我々の評価は、基本的なルールや歴史的事実に関する単純なクエリから、複雑な文脈固有の推論まで多岐にわたる。既存のスポーツデータセットの包括的概要に基づく新しいベンチマークを提案し,広範なエラー解析を行った。
論文参考訳（メタデータ） (2024-06-21T05:57:50Z)
Automate Knowledge Concept Tagging on Math Questions with LLMs [48.5585921817745]
知識概念のタグ付けは、現代の知的教育応用において重要な役割を担っている。伝統的に、これらの注釈は教育専門家の助けを借りて手作業で行われてきた。本稿では,Large Language Models (LLM) を用いたタグ付けタスクの自動化について検討する。
論文参考訳（メタデータ） (2024-03-26T00:09:38Z)
NovelQA: Benchmarking Question Answering on Documents Exceeding 200K Tokens [63.7488938083696]
我々は,大規模言語モデル(LLM)を複雑で拡張された物語で評価するためのベンチマークであるNovellQAを紹介する。 NovelQAは、複雑さ、長さ、物語のコヒーレンスをユニークなブレンドとして提供し、深いテキスト理解を評価するのに理想的なツールである。ノベルQAにおける長文LLMの評価は,長文LLMの長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文の長文長文長文長文長文の長文
論文参考訳（メタデータ） (2024-03-18T17:32:32Z)
FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。 FAC$2$E, FAC$2$Eについて述べる。
論文参考訳（メタデータ） (2024-02-29T21:05:37Z)
GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。本稿では,LLMの競合環境における推論能力について検討する。まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文参考訳（メタデータ） (2024-02-19T18:23:36Z)
Sports-QA: A Large-Scale Video Question Answering Benchmark for Complex and Professional Sports [90.79212954022218]
スポーツビデオQAタスク用に特別に設計された最初のデータセットであるSports-QAを紹介する。 Sports-QAデータセットには、説明、時系列、因果関係、反事実条件など、さまざまな種類の質問が含まれている。質問応答のための時間的情報の特定の尺度に自動的にフォーカスできる新しいオートフォーカス変換器(AFT)を提案する。
論文参考訳（メタデータ） (2024-01-03T02:22:34Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)
Through the Lens of Core Competency: Survey on Evaluation of Large Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。 LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文参考訳（メタデータ） (2023-08-15T17:40:34Z)
Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。 26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文参考訳（メタデータ） (2023-05-24T10:45:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。