Fugu-MT 論文翻訳(概要): MathMist: A Parallel Multilingual Benchmark Dataset for Mathematical Problem Solving and Reasoning

論文の概要: MathMist: A Parallel Multilingual Benchmark Dataset for Mathematical Problem Solving and Reasoning

arxiv url: http://arxiv.org/abs/2510.14305v1
Date: Thu, 16 Oct 2025 04:59:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-17 21:15:14.729132
Title: MathMist: A Parallel Multilingual Benchmark Dataset for Mathematical Problem Solving and Reasoning
Title（参考訳）: MathMist: 数学的問題解決と推論のための並列多言語ベンチマークデータセット
Authors: Mahbub E Sobhani, Md. Faiyaz Abdullah Sayeedi, Tasnim Mohiuddin, Md Mofijul Islam, Swakkhar Shatabda,
Abstract要約: 数学的問題解決と推論のための並列多言語ベンチマークであるMathMistを紹介する。 MathMistには、7つの言語にまたがる21万以上の質問回答ペアが含まれている。我々は,オープンソースの中小LCM,プロプライエタリシステム,多言語推論型モデルなど,多様なモデル群を体系的に評価する。
参考スコア（独自算出の注目度）: 6.8892368960722346
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Mathematical reasoning remains one of the most challenging domains for large language models (LLMs), requiring not only linguistic understanding but also structured logical deduction and numerical precision. While recent LLMs demonstrate strong general-purpose reasoning abilities, their mathematical competence across diverse languages remains underexplored. Existing benchmarks primarily focus on English or a narrow subset of high-resource languages, leaving significant gaps in assessing multilingual and cross-lingual mathematical reasoning. To address this, we introduce MathMist, a parallel multilingual benchmark for mathematical problem solving and reasoning. MathMist encompasses over 21K aligned question-answer pairs across seven languages, representing a balanced coverage of high-, medium-, and low-resource linguistic settings. The dataset captures linguistic variety, multiple types of problem settings, and solution synthesizing capabilities. We systematically evaluate a diverse suite of models, including open-source small and medium LLMs, proprietary systems, and multilingual-reasoning-focused models, under zero-shot, chain-of-thought (CoT), and code-switched reasoning paradigms. Our results reveal persistent deficiencies in LLMs' ability to perform consistent and interpretable mathematical reasoning across languages, with pronounced degradation in low-resource settings. All the codes and data are available at GitHub: https://github.com/mahbubhimel/MathMist
Abstract（参考訳）: 数学的推論は、言語理解だけでなく、論理的推論や数値的精度も必要とする、大規模言語モデル(LLM)の最も困難な領域の1つである。近年のLSMは, 汎用推論能力が強いが, 多様な言語にまたがる数学的能力はいまだに未解明である。既存のベンチマークは主に英語や高リソース言語の狭い部分に焦点を当てており、多言語および多言語間の数学的推論を評価する際の大きなギャップを残している。そこで本研究では,数学的問題解決と推論のための並列多言語ベンチマークであるMathMistを紹介する。 MathMistは、7つの言語にまたがる21万以上の質問応答ペアを含み、高、中、低リソースの言語設定のバランスの取れたカバレッジを表している。データセットは言語的多様性、複数のタイプの問題設定、およびソリューション合成能力をキャプチャする。我々は、ゼロショット、チェーン・オブ・シント(CoT)、コードスイッチによる推論パラダイムの下で、オープンソースの中小LLM、プロプライエタリシステム、多言語推論に焦点を当てたモデルなど、多様なモデル群を体系的に評価した。その結果,LLMが低リソース環境下での劣化を顕著に示しながら,言語間での一貫性と解釈可能な数学的推論を行う能力の欠如が明らかとなった。すべてのコードとデータはGitHubで入手できる。

関連論文リスト

Beyond Translation: Evaluating Mathematical Reasoning Capabilities of LLMs in Sinhala and Tamil [1.0499611180329804]
大きな言語モデル(LLM)は、英語で強い数学的推論を示す。しかし、これらの機能が真の多言語推論や、SinhalaやTamilのような低リソース言語での翻訳ベースの処理に依存しているかどうかは不明だ。 6種類の数学問題の分類法を用いて4つの顕著な大言語モデルを評価する。
論文参考訳（メタデータ） (2026-02-16T07:08:37Z)
Learn Globally, Speak Locally: Bridging the Gaps in Multilingual Reasoning [39.03934159726098]
M2Aは,マルチスケール多言語アライメントと,機械翻訳された質問に対する言語一貫性報酬を組み合わせた新しい手法である。地理に基づく多言語事実推論ベンチマークであるGeoFact-Xと5言語での推論トレースを紹介する。以上の結果から,M2Aは数学的および事実的推論タスクにおいて,多言語推論の忠実度を著しく向上させることが示された。
論文参考訳（メタデータ） (2025-07-07T19:04:36Z)
MMATH: A Multilingual Benchmark for Mathematical Reasoning [94.05289799605957]
MMATHは10言語にまたがる374の高品質な数学問題にまたがる多言語複雑推論のためのベンチマークである。我々は、DeepSeek R1のような先進モデルでさえ、言語間での大幅な性能格差を示し、意図しない言語において重要な目標外問題発生応答に悩まされていることを観察する。本研究は,大規模言語モデルの多言語推論能力向上のための新たな洞察と実践的戦略を提供する。
論文参考訳（メタデータ） (2025-05-25T12:47:39Z)
Language Matters: How Do Multilingual Input and Reasoning Paths Affect Large Reasoning Models? [59.970391602080205]
多言語トレーニングにも拘わらず、LRMはテスト時に高リソース言語での推論をデフォルトとする傾向にある。文化的推論は、推論タスクのパフォーマンスを低下させるが、文化的なタスクに恩恵を与える一方、安全性評価は言語固有の振る舞いを示す。
論文参考訳（メタデータ） (2025-05-23T02:46:18Z)
Towards Spoken Mathematical Reasoning: Benchmarking Speech-based Models over Multi-faceted Math Problems [36.45822358679126]
本稿では,音声ベースモデルの数学的推論能力を評価するための新しいベンチマークである,Spoken-MQA(Spken Math Question Answering)を紹介する。 Spoken-MQAは、純粋算術、単段階および多段階の文脈推論、知識指向推論問題など、多種多様な数学問題をカバーしている。基本算術を含む文脈的推論タスクにおいて、LLMが競合的に機能する言語もあるが、直接算術問題に苦戦している。
論文参考訳（メタデータ） (2025-05-21T01:07:00Z)
PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [79.84059473102778]
PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文参考訳（メタデータ） (2025-04-25T15:39:04Z)
Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。 OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文参考訳（メタデータ） (2025-03-27T11:20:17Z)
RoMath: A Mathematical Reasoning Benchmark in Romanian [7.7559527224629266]
本稿では,3つのサブセットからなるルーマニアの数学的推論ベンチマークスイートであるRoMathを紹介する。独特な言語特徴を持つ低リソース言語であるルーマニア語に焦点を当てることで、RoMathはアングロ中心モデルの限界に対処する。いくつかのオープンウェイト言語モデルをベンチマークし、表現不足言語のためのリソースを作成することの重要性を強調した。
論文参考訳（メタデータ） (2024-09-17T11:03:46Z)
GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。 1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文参考訳（メタデータ） (2024-02-29T15:26:14Z)
Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文参考訳（メタデータ） (2023-10-31T08:09:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。