論文の概要: MATH-PT: A Math Reasoning Benchmark for European and Brazilian Portuguese
- arxiv url: http://arxiv.org/abs/2604.25926v1
- Date: Wed, 01 Apr 2026 12:12:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.225058
- Title: MATH-PT: A Math Reasoning Benchmark for European and Brazilian Portuguese
- Title(参考訳): MATH-PT:ヨーロッパとブラジルのポルトガル語の数学推論ベンチマーク
- Authors: Tiago Teixeira, Ana Carolina Erthal, Juan Belieni, Beatriz Canaverde, Diego Mesquita, Miguel Faria, Eliezer de Souza da Silva, André F. T. Martins,
- Abstract要約: sc Math-PTは、ヨーロッパとブラジルのポルトガル語で書かれた1,729の数学的問題からなる新しいデータセットである。
sc Math-PTは、数学のオリンピアード、競技会、ポルトガルとブラジルの試験など、さまざまな高品質なネイティブソースからキュレーションされている。
我々は,Sc Math-PT上で現在最先端のLCMの総合ベンチマークを行い,フロンティア推論モデルが複数の選択問題において高い性能を達成することを示した。
- 参考スコア(独自算出の注目度): 22.329498961271195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of large language models (LLMs) for complex mathematical reasoning is an emergent area of research, with fast progress in methods, models, and benchmark datasets. However, most mathematical reasoning evaluations exhibit a significant linguistic bias, with the vast majority of benchmark datasets being exclusively in English or (at best) translated from English. We address this limitation by introducing {\sc Math-PT}, a novel dataset comprising 1,729 mathematical problems written in European and Brazilian Portuguese. {\sc Math-PT} is curated from a variety of high-quality native sources, including mathematical Olympiads, competitions, and exams from Portugal and Brazil. We present a comprehensive benchmark of current state-of-the-art LLMs on {\sc Math-PT}, revealing that frontier reasoning models achieve strong performance in multiple choice questions compared to open weight models, but that their performance decreases for questions with figures or open-ended questions. To facilitate future research, we release the benchmark dataset and model outputs.
- Abstract(参考訳): 複雑な数学的推論に大規模言語モデル(LLM)を使用することは、メソッド、モデル、ベンチマークデータセットの急速な進歩とともに、研究の創発的な領域である。
しかし、ほとんどの数学的推論評価は言語学的偏見を示しており、ほとんどのベンチマークデータセットは英語でのみ、あるいは英語でのみ翻訳されている。
この制限に対処するために、ヨーロッパとブラジルのポルトガル語で書かれた1,729の数学的問題からなる新しいデータセットである {\sc Math-PT} を導入する。
{\sc Math-PT} は、数学のオリンピアード、競技会、ポルトガルとブラジルの試験など、様々な高品質なネイティブソースからキュレーションされている。
そこで本研究では,フロンティア推論モデルが複数の選択問題において,開放重みモデルと比較して高い性能を達成できることを示すとともに,その性能は,数値やオープンエンド質問による質問に対して低下することを示す。
今後の研究を容易にするため、ベンチマークデータセットとモデル出力をリリースする。
関連論文リスト
- MathNet: a Global Multimodal Benchmark for Mathematical Reasoning and Retrieval [36.08923642455691]
我々は,Olympiadレベルの数学問題の高品質,大規模,マルチモーダル,多言語データセットであるMathNetを紹介する。
MathNetは47の国、17の言語、そして20年の競争にまたがる。
MathNetは、(i)問題解決、(ii)Math-Aware Retrieval、(iii)Retrieval-Augmented Problem Solvingの3つのタスクをサポートする。
論文 参考訳(メタデータ) (2026-04-20T17:59:49Z) - RealMath: A Continuous Benchmark for Evaluating Language Models on Research-Level Mathematics [30.778394290919582]
大規模言語モデル(LLM)における数学的推論を評価するための既存のベンチマークは、主に競合問題、公式な証明、人工的な問題に依存している。
論文や数理フォーラムから直接派生した新しいベンチマークであるRealMathを導入し,実数理タスクにおけるLLMの能力を評価する。
論文 参考訳(メタデータ) (2025-05-18T23:32:46Z) - Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z) - MathHay: An Automated Benchmark for Long-Context Mathematical Reasoning in LLMs [61.74749961334557]
MathHayは、LLMの長文数学的推論能力を評価するために設計された自動ベンチマークである。
我々は,8つのトップパフォーマンスモデルの長文数学的推論能力を評価するために,MathHayの広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-07T02:30:07Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。