論文の概要: NSMQ Riddles: A Benchmark of Scientific and Mathematical Riddles for Quizzing Large Language Models
- arxiv url: http://arxiv.org/abs/2605.07051v1
- Date: Fri, 08 May 2026 00:00:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.682155
- Title: NSMQ Riddles: A Benchmark of Scientific and Mathematical Riddles for Quizzing Large Language Models
- Title(参考訳): NSMQ Riddles: 大規模言語モデルのクイズのための科学および数学的なRiddlesのベンチマーク
- Authors: George Boateng, Naafi Ibrahim, Samuel John, Philemon Badu, Patrick Agyeman-Budu, Jonathan Mensah, Kevin Yeboah, William Edor, Andrew Mensa-Onumah, Nana Yeboah, Victor Wumbor-Apin Kumbol,
- Abstract要約: 大規模言語モデル(LLM)は、様々な科学教育ベンチマークで優れた性能を示している。
LLMは西洋のデータセットで評価される傾向がある。
NSMQ Riddlesは、ガーナの国立科学・数学クイズ(NSMQ)コンペティションの科学と数学のリドルズの新たなベンチマークである。
- 参考スコア(独自算出の注目度): 0.15274583259797847
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) have shown good performance on various science educational benchmarks, demonstrating their potential for use in science and mathematics education. Yet, LLMs tend to be evaluated on science and mathematical educational datasets from the Western world, with an underrepresentation of datasets from the Global South. Furthermore, they tend to have multiple-choice answer options that are trivial to evaluate. In this work, we present NSMQ Riddles, a novel benchmark of Scientific and Mathematical Riddles from Ghana's National Science and Maths Quiz (NSMQ) competition to evaluate LLMs. The NSMQ is an annual live TV competition for senior secondary school students in Ghana that brings together the smartest high school students in Ghana who compete in teams of 2 by answering questions in biology, chemistry, physics, and math over five rounds and five stages until a winning team is crowned for that year. NSMQ Riddles consists of 11 years of riddle questions (n=1.8K) from the 5th round, with each riddle containing a minimum of 3 clues. Students compete to be the first to guess the answer on any of the clues, with earlier clues being vague and also fetching more points. The answers are usually a number, word, or short phrase, allowing for automatic evaluation. We evaluated state-of-the-art models: closed (GPT-5.4, Gemini 3.1 Pro, Claude Opus 4.6) and open models (Kimi-K2.5, DeepSeek-V3.1, GPT-OSS-120B) with high and low reasoning settings. Our evaluation shows that the dataset is challenging even for state-of-the-art LLMs, which performed worse than the best student contestants. This work contributes a novel and challenging benchmark for scientific and mathematical reasoning from the Global South towards enabling a true global benchmarking of LLMs' capabilities for science and mathematics education.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々な科学教育ベンチマークで優れた性能を示し、科学と数学の教育での利用の可能性を示している。
しかし、LLMは西洋の科学と数学の教育データセットで評価されがちであり、グローバル・サウスからのデータセットの不足が原因である。
さらに、評価しにくい複数の選択肢がある傾向があります。
本稿では,ガーナの国立科学・数学クイズ(NSMQ)コンペティションにおける科学と数学の枠組みの新たなベンチマークであるNSMQ Riddlesを紹介し,LLMを評価した。
NSMQ(NSMQ)は、ガーナの高校生のための年次ライブTVコンペティションで、生物学、化学、物理学、数学の質問に答えて2人のチームで競う、ガーナで最も賢い高校生を集めている。
NSMQ Riddlesは、第5ラウンドから11年の謎解き(n=1.8K)で構成され、それぞれの謎には最低3つの手がかりが含まれている。
学生は、どの手がかりについても最初に答えを推測するために競い合っており、それ以前の手がかりは曖昧で、より多くのポイントを取得する。
答えは通常数字、単語、短いフレーズで、自動評価が可能である。
クローズドモデル(GPT-5.4, Gemini 3.1 Pro, Claude Opus 4.6)とオープンモデル(Kimi-K2.5, DeepSeek-V3.1, GPT-OSS-120B)を高い推論条件で評価した。
評価の結果,このデータセットは,優秀な学生よりも成績が悪く,最先端のLLMでも難易度が高いことがわかった。
この研究は、科学と数学の教育におけるLLMの真のグローバルなベンチマークを可能にするための、グローバル・サウスからの科学と数学の推論のための、新しくて挑戦的なベンチマークに貢献している。
関連論文リスト
- Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z) - CURIE: Evaluating LLMs On Multitask Scientific Long Context Understanding and Reasoning [12.396302011805755]
我々は、科学的な問題解決におけるLarge Language Models(LLM)の可能性を測定するためのベンチマークであるCURIEを紹介する。
このベンチマークでは、合計580の課題と6つの分野の専門家がキュレートしたソリューションペアを備えた10の課題が紹介されている。
CURIEのタスクには、ドメインの専門知識、長いコンテキスト内情報の理解、複数ステップの推論を必要とする、クローズドでオープンなLCMを幅広く評価する。
論文 参考訳(メタデータ) (2025-03-14T17:53:03Z) - MathHay: An Automated Benchmark for Long-Context Mathematical Reasoning in LLMs [61.74749961334557]
MathHayは、LLMの長文数学的推論能力を評価するために設計された自動ベンチマークである。
我々は,8つのトップパフォーマンスモデルの長文数学的推論能力を評価するために,MathHayの広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-07T02:30:07Z) - Can LLMs Master Math? Investigating Large Language Models on Math Stack Exchange [25.419977967846144]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて例外的な機能を示した。
本稿では、複雑な数学的問題解決をナビゲートする上でのLLMの限界について考察する。
論文 参考訳(メタデータ) (2024-03-30T12:48:31Z) - MathScale: Scaling Instruction Tuning for Mathematical Reasoning [70.89605383298331]
大規模言語モデル(LLM)は問題解決において顕著な能力を示した。
しかし、数学的な問題を解く能力は依然として不十分である。
高品質な数学的推論データを作成するためのシンプルでスケーラブルな方法であるMathScaleを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:42:59Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - Who's the Best Detective? LLMs vs. MLs in Detecting Incoherent Fourth
Grade Math Answers [0.0]
3大言語モデル(LLM)を用いた数学における4年生の応答の分析
その結果,LLMは不整合解の検出において機械学習(ML)よりも優れていた。
論文 参考訳(メタデータ) (2023-04-21T21:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。