論文の概要: Let's Play Across Cultures: A Large Multilingual, Multicultural Benchmark for Assessing Language Models' Understanding of Sports
- arxiv url: http://arxiv.org/abs/2510.01247v1
- Date: Wed, 24 Sep 2025 09:06:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.751965
- Title: Let's Play Across Cultures: A Large Multilingual, Multicultural Benchmark for Assessing Language Models' Understanding of Sports
- Title(参考訳): 言語モデルによるスポーツ理解のための多言語多文化ベンチマーク
- Authors: Punit Kumar Singh, Nishant Kumar, Akash Ghosh, Kunal Pasad, Khushi Soni, Manisha Jaishwal, Sriparna Saha, Syukron Abu Ishaq Alfarozi, Asres Temam Abagissa, Kitsuchart Pasupa, Haiqin Yang, Jose G Moreno,
- Abstract要約: textbftextitCultSportQAは、LMが60か国と6大陸にわたる伝統的なスポーツに対する理解を評価するために設計されたベンチマークである。
データセットには、テキストと画像のモダリティにまたがる33,000の多重選択質問(MCQ)が含まれている。
- 参考スコア(独自算出の注目度): 18.22254238982521
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language Models (LMs) are primarily evaluated on globally popular sports, often overlooking regional and indigenous sporting traditions. To address this gap, we introduce \textbf{\textit{CultSportQA}}, a benchmark designed to assess LMs' understanding of traditional sports across 60 countries and 6 continents, encompassing four distinct cultural categories. The dataset features 33,000 multiple-choice questions (MCQs) across text and image modalities, each of which is categorized into three key types: history-based, rule-based, and scenario-based. To evaluate model performance, we employ zero-shot, few-shot, and chain-of-thought (CoT) prompting across a diverse set of Large Language Models (LLMs), Small Language Models (SLMs), and Multimodal Large Language Models (MLMs). By providing a comprehensive multilingual and multicultural sports benchmark, \textbf{\textit{CultSportQA}} establishes a new standard for assessing AI's ability to understand and reason about traditional sports.
- Abstract(参考訳): 言語モデル(LM)は主に世界的に人気のあるスポーツで評価されており、しばしば地域や先住民のスポーツの伝統を見下ろしている。
このギャップに対処するために、60か国6大陸にわたる伝統的なスポーツに対するLMsの理解を評価するためのベンチマークである \textbf{\textit{CultSportQA}} を導入する。
データセットにはテキストと画像のモダリティにまたがる33,000の多重選択質問(MCQ)があり、それぞれが履歴ベース、ルールベース、シナリオベースという3つの重要なタイプに分類される。
モデル性能を評価するため,ゼロショット,少数ショット,チェーン・オブ・シンクレット(CoT)を多種多様な大言語モデル(LLM),小言語モデル(SLM),マルチモーダル大言語モデル(MLM)に適用した。
包括的な多言語および多文化スポーツベンチマークを提供することにより、従来のスポーツについて理解し、推論するAIの能力を評価するための新しい標準を確立する。
関連論文リスト
- DRISHTIKON: A Multimodal Multilingual Benchmark for Testing Language Models' Understanding on Indian Culture [14.681676046750342]
DRISHTIKON(DRISHTIKON)は、インド文化を中心としたマルチモーダルおよび多言語ベンチマークである。
このデータセットは、祭り、服装、料理、芸術形式、歴史遺産を含む豊かな文化的テーマを捉えている。
我々は、オープンソースの小型・大規模モデル、プロプライエタリシステム、推論特化VLM、インデックスにフォーカスしたモデルなど、幅広い視覚言語モデル(VLM)を評価する。
論文 参考訳(メタデータ) (2025-09-23T17:40:43Z) - Grounding Multilingual Multimodal LLMs With Cultural Knowledge [48.95126394270723]
本稿では,MLLMを文化的知識に根ざしたデータ中心型アプローチを提案する。
CulturalGroundは、42の国と39の言語にまたがる2200万の高品質で文化的に豊かなVQAペアで構成されている。
我々は,MLLM CulturalPangeaをCulturalGround上で学習し,汎用性を維持するために,標準の多言語指導訓練データをインターリーブする。
論文 参考訳(メタデータ) (2025-08-10T16:24:11Z) - MAKIEval: A Multilingual Automatic WiKidata-based Framework for Cultural Awareness Evaluation for LLMs [37.98920430188422]
MAKIEvalは、大規模言語モデルにおける文化的認識を評価するための自動多言語フレームワークである。
モデル出力における文化的実体を自動的に識別し、構造化された知識にリンクする。
オープンソースのシステムとプロプライエタリシステムの両方を対象とする,世界のさまざまな場所で開発された7つのLLMを評価した。
論文 参考訳(メタデータ) (2025-05-27T19:29:40Z) - All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages [73.93600813999306]
ALM-benchは、100言語にわたるLMMを評価するための、これまでで最大かつ最も包括的な取り組みである。
様々な言語でテキストと組み合わせた文化的に多様なイメージを理解し、推論する能力をテストすることで、既存のモデルに挑戦する。
このベンチマークは、真/偽、複数選択、オープンな質問など、さまざまな質問フォーマットを備えた、堅牢でニュアンスの高い評価フレームワークを提供する。
論文 参考訳(メタデータ) (2024-11-25T15:44:42Z) - CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。