論文の概要: BanglaMATH : A Bangla benchmark dataset for testing LLM mathematical reasoning at grades 6, 7, and 8
- arxiv url: http://arxiv.org/abs/2510.12836v1
- Date: Mon, 13 Oct 2025 14:03:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.34805
- Title: BanglaMATH : A Bangla benchmark dataset for testing LLM mathematical reasoning at grades 6, 7, and 8
- Title(参考訳): バングラマート : 等級6、7、8におけるLLM数学的推論のテストのためのBanglaベンチマークデータセット
- Authors: Tabia Tanzin Prama, Christopher M. Danforth, Peter Sheridan Dodds,
- Abstract要約: 本稿では,Arithmetic, Algebra, Geometry, Logical Reasoningなどのトピックにまたがる1.7kのBangla数学単語のデータセットであるBanglaMATHを紹介する。
Gemini 2.5 FlashとDeepSeek V3は、小学校の3学年で80パーセントの精度で強力なパフォーマンスを達成した唯一のモデルです。
- 参考スコア(独自算出の注目度): 0.568041607842355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have tremendous potential to play a key role in supporting mathematical reasoning, with growing use in education and AI research. However, most existing benchmarks are limited to English, creating a significant gap for low-resource languages. For example, Bangla is spoken by nearly 250 million people who would collectively benefit from LLMs capable of native fluency. To address this, we present BanglaMATH, a dataset of 1.7k Bangla math word problems across topics such as Arithmetic, Algebra, Geometry, and Logical Reasoning, sourced from Bangla elementary school workbooks and annotated with details like grade level and number of reasoning steps. We have designed BanglaMATH to evaluate the mathematical capabilities of both commercial and open-source LLMs in Bangla, and we find that Gemini 2.5 Flash and DeepSeek V3 are the only models to achieve strong performance, with $\ge$ 80\% accuracy across three elementary school grades. Furthermore, we assess the robustness and language bias of these top-performing LLMs by augmenting the original problems with distracting information, and translating the problems into English. We show that both LLMs fail to maintain robustness and exhibit significant performance bias in Bangla. Our study underlines current limitations of LLMs in handling arithmetic and mathematical reasoning in low-resource languages, and highlights the need for further research on multilingual and equitable mathematical understanding. Dataset link: \href{https://github.com/TabiaTanzin/BanglaMATH-A-Bangla-benchmark-dataset-for-testing-LLM-mathematical-re asoning-at-grades-6-7-and-8.git}{https://github.com/BanglaMATH}
- Abstract(参考訳): 大規模言語モデル(LLM)は、教育やAI研究での利用の増加とともに、数学的推論をサポートする上で重要な役割を果たす可能性がある。
しかし、既存のベンチマークのほとんどは英語に限られており、低リソース言語には大きなギャップが生じる。
例えば、バングラ語は2億5000万人近い人々が話し合っています。
そこで本研究では,バングラの小学校のワークブックから得られたArithmetic, Algebra, Geometry, Logical Reasoningなどのトピックを対象とした,1.7kのバングラ数学単語のデータセットであるBanglaMATHを提案する。
我々はバングラで商用LLMとオープンソースLLMの両方の数学的能力を評価するためにBanglaMATHを設計し、Gemini 2.5 FlashとDeepSeek V3が3つの小学校の成績で80 %の精度で強力な性能を達成する唯一のモデルであることが判明した。
さらに,これらのトップパフォーマンスLLMの頑健さと言語バイアスを,情報に気を散らすことで元の問題を増補し,問題を英語に翻訳することで評価する。
両LLMはロバスト性維持に失敗し,バングラでは高い性能バイアスを示した。
本研究は,低リソース言語における算術的および数理的推論の処理におけるLLMの現在の限界を浮き彫りにして,多言語・等角的数学的理解のさらなる研究の必要性を強調した。
データセットリンク: \href{https://github.com/TabiaTanzin/BanglaMATH-A-Bangla-benchmark-dataset-for-testing-LLM-mathematical-re asoning-at-grades-6-7-and-8.git}{https://github.com/BanglaMATH}
関連論文リスト
- TituLLMs: A Family of Bangla LLMs with Comprehensive Benchmarking [6.070192392563392]
1b と 3b のパラメータサイズで利用可能な,最初の大規模事前訓練型 Bangla LLM である TituLLM を提案する。
TituLLMsをトレーニングするために、約37億トークンの事前トレーニングデータセットを収集しました。
我々はLlama-3.2トークンを言語や文化固有の知識に組み込むように拡張した。
論文 参考訳(メタデータ) (2025-02-16T16:22:23Z) - Multilingual Mathematical Reasoning: Advancing Open-Source LLMs in Hindi and English [24.260983864615557]
大言語モデル (LLMs) は言語的タスクでは優れているが、特にヒンディー語のような非英語言語では数学的推論に苦慮している。
OpenHathi 7B, LLaMA-2 7B, WizardMath 7B, Mistral 7B, LLeMMa 7B, MAmmoTH 7B, Gemini Pro, GPT-4 などのモデルについて, ゼロショット, 少数ショットチェーン・オブ・シント(CoT)法, 教師付き微調整法を用いて評価を行った。
論文 参考訳(メタデータ) (2024-12-24T13:07:29Z) - MathHay: An Automated Benchmark for Long-Context Mathematical Reasoning in LLMs [61.74749961334557]
MathHayは、LLMの長文数学的推論能力を評価するために設計された自動ベンチマークである。
我々は,8つのトップパフォーマンスモデルの長文数学的推論能力を評価するために,MathHayの広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-07T02:30:07Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - BenLLMEval: A Comprehensive Evaluation into the Potentials and Pitfalls of Large Language Models on Bengali NLP [17.362068473064717]
大規模言語モデル(LLM)は、NLPにおいて最も重要なブレークスルーの1つである。
本稿では,ベンガル語での性能をベンチマークするために,LLMを総合的に評価するBenLLM-Evalを紹介する。
実験の結果、ベンガルのNLPタスクではゼロショットLLMは、現在のSOTA微調整モデルよりも性能が向上することが示された。
論文 参考訳(メタデータ) (2023-09-22T20:29:34Z) - CMATH: Can Your Language Model Pass Chinese Elementary School Math Test? [15.53530547827583]
中国小学校数学語問題データセットについて, 詳細な注釈付き1.7kの小学校レベルの数学語問題を含む。
このデータセットは、人気のある大規模言語モデル(LLM)の能力を評価するためのベンチマークツールを提供することを目的としている。
商用とオープンソースの両方の選択肢を含む,多種多様なLCMを評価し,小学校6学年でGPT-4のみが成功(精度$geq$60%)していることを確認した。
論文 参考訳(メタデータ) (2023-06-29T02:19:50Z) - Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。