論文の概要: AI4Math: A Native Spanish Benchmark for University-Level Mathematical Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.18978v1
- Date: Sun, 25 May 2025 05:08:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.805374
- Title: AI4Math: A Native Spanish Benchmark for University-Level Mathematical Reasoning in Large Language Models
- Title(参考訳): AI4Math: 大規模言語モデルにおける大学レベルの数学的推論のためのネイティブなスペイン語ベンチマーク
- Authors: Miguel Angel Peñaloza Perez, Bruno Lopez Orozco, Jesus Tadeo Cruz Soto, Michelle Bruno Hernandez, Miguel Angel Alvarado Gonzalez, Sandra Malagon,
- Abstract要約: AI4Mathは、スペイン語で書かれた105の大学レベルの数学問題のベンチマークである。
データセットは7つの高度なドメイン(代数、計算、幾何学、確率、数論、コンビニティクス、論理)にまたがる。
GPT 4o, GPT 4o mini, o3 mini, LLaMA 3.3 70B, DeepSeek R1 685B, DeepSeek V3 685Bの6つの大言語モデルを, スペイン語と英語でそれぞれゼロショットとチェーンの4つの構成で評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing mathematical reasoning benchmarks are predominantly English only or translation-based, which can introduce semantic drift and mask languagespecific reasoning errors. To address this, we present AI4Math, a benchmark of 105 original university level math problems natively authored in Spanish. The dataset spans seven advanced domains (Algebra, Calculus, Geometry, Probability, Number Theory, Combinatorics, and Logic), and each problem is accompanied by a step by step human solution. We evaluate six large language models GPT 4o, GPT 4o mini, o3 mini, LLaMA 3.3 70B, DeepSeek R1 685B, and DeepSeek V3 685B under four configurations: zero shot and chain of thought, each in Spanish and English. The top models (o3 mini, DeepSeek R1 685B, DeepSeek V3 685B) achieve over 70% accuracy, whereas LLaMA 3.3 70B and GPT-4o mini remain below 40%. Most models show no significant performance drop between languages, with GPT 4o even performing better on Spanish problems in the zero shot setting. Geometry, Combinatorics, and Probability questions remain persistently challenging for all models. These results highlight the need for native-language benchmarks and domain-specific evaluations to reveal reasoning failures not captured by standard metrics.
- Abstract(参考訳): 既存の数学的推論ベンチマークは、主に英語のみまたは翻訳ベースであり、セマンティックドリフトとマスキング言語固有の推論エラーを導入することができる。
これを解決するために、スペイン語でネイティブに書かれた105の大学レベルの数学問題のベンチマークであるAI4Mathを紹介する。
データセットは7つの高度なドメイン(Algebra、Calculus、Geometry、Probability、Number Theory、 Combinatorics、Logic)にまたがる。
GPT 4o, GPT 4o mini, o3 mini, LLaMA 3.3 70B, DeepSeek R1 685B, DeepSeek V3 685Bの6つの大言語モデルを, スペイン語と英語でそれぞれゼロショットとチェーンの4つの構成で評価した。
上位モデル(o3 mini、DeepSeek R1 685B、DeepSeek V3 685B)は70%以上の精度を実現しているが、LLaMA 3.3 70BとGPT-4o miniは40%以下である。
ほとんどのモデルでは言語間での大幅なパフォーマンス低下は見られず、GPT 4oはゼロショット設定のスペイン問題でもパフォーマンスが向上した。
幾何学、コンビニティクス、確率に関する質問は、すべてのモデルで引き続き挑戦的だ。
これらの結果は、標準メトリクスが捉えていない推論失敗を明らかにするために、ネイティブ言語ベンチマークとドメイン固有の評価の必要性を強調している。
関連論文リスト
- UGMathBench: A Diverse and Dynamic Benchmark for Undergraduate-Level Mathematical Reasoning with Large Language Models [11.964085209696051]
UGMathBenchは16の被験者5,062の課題と111のトピックで構成され、10の異なる回答タイプが特徴である。
それぞれの問題には3つのランダム化バージョンが含まれており、主要なオープンソース LLM が UGMathBench で飽和するにつれて、リリースに向けて追加バージョンが計画されている。
LLMを23個評価した結果, OpenAI-o1-mini による EAcc のロバスト性は 56.3% であり,それぞれ異なるモデルで大きな$Delta$値が観測された。
論文 参考訳(メタデータ) (2025-01-23T15:46:43Z) - Can Language Models Solve Olympiad Programming? [40.54366634332231]
本稿ではUSACOベンチマークについて,USA Computing Olympiadの307の問題点について紹介する。
競争型プログラミングのための様々なLM推論手法を初めて構築・テストする。
GPT-4 は 8.7% パス@1 の精度しか達成していない。
論文 参考訳(メタデータ) (2024-04-16T23:27:38Z) - SuperCLUE-Math6: Graded Multi-Step Math Reasoning Benchmark for LLMs in
Chinese [21.893992064105085]
SuperCLUE-Math6は、中国語モデルの数学的推論能力を評価するための新しいベンチマークデータセットである。
SC-Math6はGSM8Kデータセットの中国語版として設計されており、難易度、多様性、アプリケーションスコープが向上している。
論文 参考訳(メタデータ) (2024-01-22T10:30:11Z) - DeMuX: Data-efficient Multilingual Learning [57.37123046817781]
DEMUXは、大量の重複しない多言語データからラベルを付けるための正確なデータポイントを規定するフレームワークである。
エンドツーエンドのフレームワークは言語に依存しず、モデル表現を記述し、多言語的ターゲット設定をサポートしています。
論文 参考訳(メタデータ) (2023-11-10T20:09:08Z) - MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models [91.66694225955872]
数学的推論を専門とする微調整言語モデルであるMetaMathを提案する。
具体的には、余分な知識を伴わずに複数の視点から質問を書き換えることで、数学的質問をブートストラップすることから始める。
私たちは、すべてのMetaMathQAデータセット、異なるモデルサイズを持つMetaMathモデル、パブリック使用のためのトレーニングコードをリリースします。
論文 参考訳(メタデータ) (2023-09-21T17:45:42Z) - Making Large Language Models Better Reasoners with Step-Aware Verifier [49.16750018427259]
DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。
最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-06T03:38:36Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。