論文の概要: CricBench: A Multilingual Benchmark for Evaluating LLMs in Cricket Analytics
- arxiv url: http://arxiv.org/abs/2512.21877v1
- Date: Fri, 26 Dec 2025 05:59:19 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:53:45.53406
- Title: CricBench: A Multilingual Benchmark for Evaluating LLMs in Cricket Analytics
- Title(参考訳): CricBench:クリケット分析におけるLLMの評価のための多言語ベンチマーク
- Authors: Vaibhav Devraj, Dhruv Kumar, Jagat Sesh Challa,
- Abstract要約: 大規模言語モデル(LLM)は、スポーツ分析に固有のドメイン固有のニュアンス、複雑なバリエーション、多言語スキーマを扱う。
我々は、特殊なクリケットデータ上でLLMを評価するための総合ベンチマークスイートであるCricBenchを紹介する。
我々は,厳密な評価プロトコルを用いて,GPT-4o,Claude 3.7 Sonnet,およびオープンソースモデルを含む6つの最先端モデルを評価する。
- 参考スコア(独自算出の注目度): 1.3986052226424095
- License:
- Abstract: Cricket is the second most popular sport globally, commanding a massive following of over 2.5 billion fans globally. Enthusiasts and analysts frequently seek advanced statistical insights, such as long-term historical performance trends or complex player comparisons, that are often unavailable through standard web searches. While Large Language Models (LLMs) have advanced significantly in Text-to-SQL tasks, their capability to handle the domain-specific nuances, complex schema variations, and multilingual requirements inherent to sports analytics remains under-explored. To investigate this potential capability gap, we present CricBench, a comprehensive benchmark suite for evaluating LLMs on specialized cricket data. To curate a "Gold Standard" dataset, we collaborate with domain experts in cricket and SQL to manually author complex queries, ensuring logical correctness. Recognizing linguistic diversity, we construct the benchmark in both English and Hindi, establishing a framework that is open for further extension to other regional languages. We evaluate six state-of-the-art models, including GPT-4o, Claude 3.7 Sonnet, and open-source models, using a strict evaluation protocol. Our results reveal that high performance on general benchmarks does not guarantee success in specialized domains. While the open-weights reasoning model DeepSeek R1 achieves state-of-the-art performance (50.6%), surpassing proprietary giants like Claude 3.7 Sonnet (47.7%) and GPT-4o (33.7%), it still exhibits a significant accuracy drop when moving from general benchmarks (BIRD) to CricBench. Furthermore, we observe that code-mixed Hindi queries frequently yield parity or higher accuracy compared to English, challenging the assumption that English is the optimal prompt language for specialized SQL tasks.
- Abstract(参考訳): クリケットは世界で2番目に人気のあるスポーツであり、世界25億以上のファンをフォローしている。
エンタシアストやアナリストは、しばしば、長期の歴史的パフォーマンストレンドや複雑なプレイヤー比較のような、標準的なウェブ検索では利用できない高度な統計的な洞察を求める。
大規模言語モデル(LLM)はテキストからSQLへのタスクにおいて大きく進歩しているが、ドメイン固有のニュアンス、複雑なスキーマのバリエーション、スポーツ分析に固有の多言語要求を処理する能力は、まだ未定のままである。
この可能性のギャップを解明するために、特殊なクリケットデータ上でLLMを評価するための総合ベンチマークスイートであるCricBenchを提案する。
Gold Standard"データセットをキュレートするために、私たちはクリケットとSQLのドメインエキスパートと協力し、複雑なクエリを手作業で記述し、論理的な正確性を確保します。
言語多様性を認識し、英語とヒンディー語の両方でベンチマークを構築し、他の地域言語へのさらなる拡張に向けた枠組みを確立する。
我々は,厳密な評価プロトコルを用いて,GPT-4o,Claude 3.7 Sonnet,およびオープンソースモデルを含む6つの最先端モデルを評価する。
以上の結果から,一般ベンチマークにおけるハイパフォーマンスは,特殊な領域での成功を保証できないことが明らかとなった。
オープンウェイト推論モデルであるDeepSeek R1は最先端のパフォーマンス(50.6%)を達成し、Claude 3.7 Sonnet(47.7%)やGPT-4o(33.7%)といったプロプライエタリな巨人を抜いたが、一般的なベンチマーク(BIRD)からCricBenchに移行すると、依然としてかなりの精度低下が見られる。
さらに、コード混合ヒンディー語クエリは、英語と比較してパリティや高い精度が得られることが多く、専門的なSQLタスクにおいて、英語が最適なプロンプト言語である、という仮定に挑戦する。
関連論文リスト
- Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。
既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。
その結果,2つの領域間に大きな性能差が認められた。
論文 参考訳(メタデータ) (2025-05-22T12:27:02Z) - FLEX: Expert-level False-Less EXecution Metric for Reliable Text-to-SQL Benchmark [8.445403382578167]
本稿では,テキスト対技術システム評価の新しいアプローチであるFLEX(False-Lesscution Execution)を紹介する。
我々の基準は、包括的文脈と洗練された基準で、人間専門家との合意を改善します。
この研究は、テキスト・トゥ・テクニカル・システムのより正確でニュアンスな評価に寄与し、この分野における最先端のパフォーマンスの理解を再構築する可能性がある。
論文 参考訳(メタデータ) (2024-09-24T01:40:50Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - LEXTREME: A Multi-Lingual and Multi-Task Benchmark for the Legal Domain [24.54412069999257]
法的なNLP文献を調査し、LEXTREMEを作成する24言語を含む11のデータセットを選択した。
ベストベースライン(XLM-R大)は、両方のデータセットアグリゲーションが言語アグリゲーションスコア61.3を達成する。
これは、LEXTREMEが依然として非常に困難であり、改善の余地が十分にあることを示している。
論文 参考訳(メタデータ) (2023-01-30T18:05:08Z) - MultiSpider: Towards Benchmarking Multilingual Text-to-SQL Semantic
Parsing [48.216386761482525]
英語、ドイツ語、フランス語、スペイン語、日本語、中国語、ベトナム語)をカバーする最大多言語テキストスキーマデータセットであるMultiSpiderを提案する。
3つの典型的な設定(ゼロショット、モノリンガル、マルチリンガル)の下での実験結果から、非英語言語では6.1%の精度の低下が見られる。
また、単純なフレームワーク拡張フレームワークであるSAVe(Augmentation-with-Verification)を提案する。これは、全体的なパフォーマンスを約1.8%向上させ、言語間の29.5%のパフォーマンスギャップを埋める。
論文 参考訳(メタデータ) (2022-12-27T13:58:30Z) - XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for
Cross-lingual Text-to-SQL Semantic Parsing [70.40401197026925]
大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。
この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。
また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
論文 参考訳(メタデータ) (2022-10-25T01:33:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。