論文の概要: SportQA: A Benchmark for Sports Understanding in Large Language Models
- arxiv url: http://arxiv.org/abs/2402.15862v1
- Date: Sat, 24 Feb 2024 17:12:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 16:44:46.479840
- Title: SportQA: A Benchmark for Sports Understanding in Large Language Models
- Title(参考訳): SportQA: 大規模言語モデルにおけるスポーツ理解のベンチマーク
- Authors: Haotian Xia, Zhengbang Yang, Yuqing Wang, Rhys Tracy, Yun Zhao,
Dongdong Huang, Zezhi Chen, Yan Zhu, Yuan-fang Wang, Weining Shen
- Abstract要約: SportQAは、スポーツ理解の文脈で大規模言語モデル(LLM)を評価するために特別に設計されたベンチマークである。
SportQAには3つの難易度で70,000以上の複数の質問が含まれている。
以上の結果から,LSMは基本的なスポーツ知識において有能な性能を示す一方で,より複雑なシナリオベースのスポーツ推論に苦慮していることが明らかとなった。
- 参考スコア(独自算出の注目度): 13.288566908987129
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A deep understanding of sports, a field rich in strategic and dynamic
content, is crucial for advancing Natural Language Processing (NLP). This holds
particular significance in the context of evaluating and advancing Large
Language Models (LLMs), given the existing gap in specialized benchmarks. To
bridge this gap, we introduce SportQA, a novel benchmark specifically designed
for evaluating LLMs in the context of sports understanding. SportQA encompasses
over 70,000 multiple-choice questions across three distinct difficulty levels,
each targeting different aspects of sports knowledge from basic historical
facts to intricate, scenario-based reasoning tasks. We conducted a thorough
evaluation of prevalent LLMs, mainly utilizing few-shot learning paradigms
supplemented by chain-of-thought (CoT) prompting. Our results reveal that while
LLMs exhibit competent performance in basic sports knowledge, they struggle
with more complex, scenario-based sports reasoning, lagging behind human
expertise. The introduction of SportQA marks a significant step forward in NLP,
offering a tool for assessing and enhancing sports understanding in LLMs.
- Abstract(参考訳): 戦略的・動的コンテンツに富んだ分野であるスポーツの深い理解は、自然言語処理(NLP)の推進に不可欠である。
これは、特別なベンチマークにおける既存のギャップを考えると、LLM(Large Language Models)の評価と発展という文脈において特に重要である。
このギャップを埋めるために、スポーツ理解の文脈でLLMを評価するために特別に設計された新しいベンチマークであるSportQAを紹介する。
SportQAには3つの難易度で70,000以上の複数の質問が含まれており、それぞれが基本的な歴史的事実から複雑なシナリオベースの推論タスクまで、スポーツ知識のさまざまな側面をターゲットにしている。
主に,チェーン・オブ・シークレット(CoT)のプロンプトで補足された少数ショット学習パラダイムを利用して,広く普及しているLLMの徹底的な評価を行った。
以上の結果から,LSMは基本的なスポーツ知識において有能なパフォーマンスを示す一方で,より複雑でシナリオベースのスポーツ推論に苦しむことが明らかとなった。
SportQAの導入は、LPMにおけるスポーツ理解を評価し、強化するためのツールを提供する、NLPにおける重要な一歩である。
関連論文リスト
- NovelQA: A Benchmark for Long-Range Novel Question Answering [61.85946098685307]
NovelQAは拡張テキストによる大規模言語モデルの能力をテストするために設計されたベンチマークである。
本稿では,ノベルQAの設計と構築について述べる。
NovelQAにおけるLong-context LLMの評価により,モデルの性能に関する重要な知見が得られた。
論文 参考訳(メタデータ) (2024-03-18T17:32:32Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - When LLMs Meet Cunning Questions: A Fallacy Understanding Benchmark for
Large Language Models [62.42534500424585]
本稿では,人間が理解し易いが,理解し難い質問を含むファラッキー理解ベンチマークを提案する。
具体的には、FLUBが焦点を当てている不気味な質問は、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招く質問から成り立っている。
LLMの誤り理解能力を評価するために,FLUBベンチマークの難易度を高める3つのタスクを設計する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - SportsMetrics: Blending Text and Numerical Data to Understand
Information Fusion in LLMs [45.69642663863077]
スポーツデータ分析を中心とした4つの新しいタスクを導入し,LLMの数値推論と情報融合能力を評価する。
これらのタスクは、LEMに詳細なプレイバイプレイのスポーツゲーム記述を提供し、敵のシナリオでそれらに挑戦する。
NBAおよびNFLゲームにおいて、これらのタスクにおけるLLMの性能を評価するための広範な実験を行う。
論文 参考訳(メタデータ) (2024-02-15T20:26:07Z) - Sports-QA: A Large-Scale Video Question Answering Benchmark for Complex
and Professional Sports [90.79212954022218]
スポーツビデオQAタスク用に特別に設計された最初のデータセットであるSports-QAを紹介する。
Sports-QAデータセットには、説明、時系列、因果関係、反事実条件など、さまざまな種類の質問が含まれている。
質問応答のための時間的情報の特定の尺度に自動的にフォーカスできる新しいオートフォーカス変換器(AFT)を提案する。
論文 参考訳(メタデータ) (2024-01-03T02:22:34Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness
and Ethics [32.123919380959485]
MLLM(Multi-modal large language model)は、大規模言語モデル(LLM)に基づいて訓練される。
マルチモーダルなタスクでは優れているが、MLLMの純粋なNLP能力はしばしば過小評価され、テストされていない。
LLMをMLLMに移行するための一般的な戦略である視覚的インストラクションチューニングは、予期せぬ、興味深いことに、改善された真理性と倫理的整合性の両方を達成するのに役立ちます。
論文 参考訳(メタデータ) (2023-09-13T17:57:21Z) - Spoken Language Intelligence of Large Language Models for Language
Learning [3.5924382852350902]
教育分野における大規模言語モデル(LLM)の有効性を評価することに注力する。
上記のシナリオにおけるLLMの有効性を評価するために,新しい複数選択質問データセットを提案する。
また,ゼロショット法や少数ショット法など,様々なプロンプト技術の影響についても検討する。
異なる大きさのモデルは、音韻学、音韻学、第二言語習得の概念をよく理解しているが、実世界の問題に対する推論には限界がある。
論文 参考訳(メタデータ) (2023-08-28T12:47:41Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。