論文の概要: MGSM-Pro: A Simple Strategy for Robust Multilingual Mathematical Reasoning Evaluation
- arxiv url: http://arxiv.org/abs/2601.21225v1
- Date: Thu, 29 Jan 2026 03:40:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.551681
- Title: MGSM-Pro: A Simple Strategy for Robust Multilingual Mathematical Reasoning Evaluation
- Title(参考訳): MGSM-Pro:ロバストな多言語数学的推論評価のための簡易戦略
- Authors: Tianyi Xu, Kosei Uemura, Alfred Malengo Kondoro, Tadesse Destaw Belay, Catherine Nana Nyaah Essuman, Ifeoma Okoh, Ganiyat Afolabi, Ayodele Awokoya, David Ifeoluwa Adelani,
- Abstract要約: GSM-SymbolicアプローチによるM GSMデータセットの拡張であるM GSM-Proを紹介する。
我々のデータセットは、M GSM質問毎に、異なる名前、桁、無関係な文脈で5つのインスタンスを提供する。
9つの言語で評価したところ、多くの低リソース言語は、元のテストセットとは異なる桁のインスタンス化でテストすると、大きなパフォーマンス低下を被ることがわかった。
- 参考スコア(独自算出の注目度): 13.39496848562168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have made substantial progress in mathematical reasoning. However, benchmark development for multilingual evaluation has lagged behind English in both difficulty and recency. Recently, GSM-Symbolic showed a strong evidence of high variance when models are evaluated on different instantiations of the same question; however, the evaluation was conducted only in English. In this paper, we introduce MGSM-Pro, an extension of MGSM dataset with GSM-Symbolic approach. Our dataset provides five instantiations per MGSM question by varying names, digits and irrelevant context. Evaluations across nine languages reveal that many low-resource languages suffer large performance drops when tested on digit instantiations different from those in the original test set. We further find that some proprietary models, notably Gemini 2.5 Flash and GPT-4.1, are less robust to digit instantiation, whereas Claude 4.0 Sonnet is more robust. Among open models, GPT-OSS 120B and DeepSeek V3 show stronger robustness. Based on these findings, we recommend evaluating each problem using at least five digit-varying instantiations to obtain a more robust and realistic assessment of math reasoning.
- Abstract(参考訳): 大規模言語モデルは数学的推論においてかなりの進歩を遂げた。
しかし、多言語評価のためのベンチマーク開発は難易度と難易度の両方において英語に遅れを取っている。
近年,GSM-Symbolicは,同じ質問の異なるインスタンス化に対してモデルを評価する場合,高いばらつきの強い証拠を示したが,その評価は英語でのみ行われた。
本稿では,MGSM-SymbolicアプローチによるMGSMデータセットの拡張であるMGSM-Proを紹介する。
我々のデータセットは、MGSM質問毎に異なる名前、桁、無関係な文脈で5つのインスタンスを提供する。
9つの言語で評価したところ、多くの低リソース言語は、元のテストセットとは異なる桁のインスタンス化でテストすると、大きなパフォーマンス低下を被ることがわかった。
さらに、いくつかのプロプライエタリなモデル、特に Gemini 2.5 Flash と GPT-4.1 は桁のインスタンス化に弱いが、Claude 4.0 Sonnet はより堅牢である。
オープンモデルの中で、GPT-OSS 120BとDeepSeek V3は強い堅牢性を示している。
これらの結果に基づいて,少なくとも5桁の異なるインスタンス化を用いて各問題を評価し,より堅牢で現実的な算数推理値を求めることを推奨する。
関連論文リスト
- Evaluating Modern Large Language Models on Low-Resource and Morphologically Rich Languages:A Cross-Lingual Benchmark Across Cantonese, Japanese, and Turkish [12.286855282078305]
GPT-4o, GPT-4, Claude3.5Sonnet, LLaMA3.1, MistralLarge2, LLaMA-2Chat13B, Mistral7B Instructを評価した。
我々のベンチマークは、オープンドメイン質問応答、文書要約、英語からXへの翻訳、文化的根拠のある対話の4つのタスクにまたがっている。
論文 参考訳(メタデータ) (2025-11-05T22:09:53Z) - LinguaMark: Do Multimodal Models Speak Fairly? A Benchmark-Based Evaluation [2.9248916859490173]
マルチ言語視覚質問応答(VQA)タスクにおいて,最先端のLMMを評価するためのベンチマークを導入する。
データセットは、11言語と5つの社会的属性にまたがる、6,875のイメージテキストペアで構成されている。
Bias、Answer Relevancy、Faithfulnessの3つの主要な指標を用いてモデルを評価する。
論文 参考訳(メタデータ) (2025-07-09T20:45:04Z) - A Careful Examination of Large Language Model Performance on Grade School Arithmetic [4.573055530800853]
大規模言語モデル (LLM) は、数学的推論のための多くのベンチマークで驚くべき成功を収めた。
このパフォーマンスの一部は、実際にデータセットの汚染を反映している、という懸念が高まっている。
論文 参考訳(メタデータ) (2024-05-01T05:52:05Z) - TextSquare: Scaling up Text-Centric Visual Instruction Tuning [62.878378882175284]
大規模かつ高品質な命令チューニングデータセットSquare-10Mを作成するための新しいアプローチを提案する。
われわれのモデルであるTextSquareは、最先端のText中心のMLLMをはるかに上回っている。
さらに、GPT4VやGeminiといったトップクラスのモデルでは、テキスト中心のベンチマークを10つ中6つで上回っている。
論文 参考訳(メタデータ) (2024-04-19T11:38:08Z) - A Text-to-Text Model for Multilingual Offensive Language Identification [19.23565690468299]
本研究では,テキスト・トゥ・テキスト・トランスフォーマを用いた攻撃的言語識別のためのエンコーダ・デコーダアーキテクチャを用いた最初の事前学習モデルを提案する(T5)。
我々の事前学習されたT5モデルは、複数の英語ベンチマークにおいて、fBERTやHateBERTのような攻撃的言語検出のために微調整された他のトランスフォーマーベースモデルよりも優れている。
同様のアプローチで、mT5を用いて攻撃的言語識別のための最初の多言語事前訓練モデルを訓練する。
論文 参考訳(メタデータ) (2023-12-06T09:37:27Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - Language Models are Multilingual Chain-of-Thought Reasoners [83.37148309771378]
本稿では,250の小学校数学問題を10の類型的多言語に手動で翻訳することで,多言語学級数学のベンチマークを導入する。
MGSM問題をチェーン・オブ・ソートにより解く能力は,モデルスケールの増大とともに出現する。
言語モデルの多言語推論能力は他のタスクにも及んでいることを示す。
論文 参考訳(メタデータ) (2022-10-06T17:03:34Z) - Making Large Language Models Better Reasoners with Step-Aware Verifier [49.16750018427259]
DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。
最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-06T03:38:36Z) - Self-Consistency Improves Chain of Thought Reasoning in Language Models [53.45015291520658]
我々は,大規模言語モデルの推論精度を大幅に向上させる,単純なアンサンブル戦略,自己整合性を探究する。
算術的および常識的推論ベンチマークでは、自己整合性は大幅な精度の向上をもたらす。
論文 参考訳(メタデータ) (2022-03-21T17:48:52Z) - Pre-Trained Multilingual Sequence-to-Sequence Models: A Hope for
Low-Resource Language Translation? [5.401479499882366]
mBARTはドメイン間の違いに対して堅牢であるが、見知らぬ言語やタイプ的遠隔言語への翻訳は3.0BLEU以下である。
タイトルの質問に答えるために、mBARTは低リソースモデルではないので、新しいモデルから新しいデータへの強調のシフトを推奨します。
論文 参考訳(メタデータ) (2022-03-16T18:15:17Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。