論文の概要: Can reasoning models comprehend mathematical problems in Chinese ancient texts? An empirical study based on data from Suanjing Shishu
- arxiv url: http://arxiv.org/abs/2505.16660v1
- Date: Thu, 22 May 2025 13:24:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.321523
- Title: Can reasoning models comprehend mathematical problems in Chinese ancient texts? An empirical study based on data from Suanjing Shishu
- Title(参考訳): 中国古文書の数学的問題を理解する理性モデル : スアンジン・シシュのデータに基づく実証的研究
- Authors: Liu Chang, Wang Dongbo, Liu liu, Zhao Zhixiao,
- Abstract要約: 愚事_MATH(ぐじ_MATH)は、スージー詩集に基づく古典的テキスト評価のベンチマークである。
古典中国語の独特な言語的制約の下で、主流推論モデルの数学的問題解決能力を評価する。
その結果、推論モデルはこれらの問題を部分的に理解し解決することができるが、その全体的な性能は現代の数学的なタスクのベンチマークよりも劣っていることが示唆された。
- 参考スコア(独自算出の注目度): 5.1144943807466285
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This study addresses the challenges in intelligent processing of Chinese ancient mathematical classics by constructing Guji_MATH, a benchmark for evaluating classical texts based on Suanjing Shishu. It systematically assesses the mathematical problem-solving capabilities of mainstream reasoning models under the unique linguistic constraints of classical Chinese. Through machine-assisted annotation and manual verification, 538 mathematical problems were extracted from 8 canonical texts, forming a structured dataset centered on the "Question-Answer-Solution" framework, supplemented by problem types and difficulty levels. Dual evaluation modes--closed-book (autonomous problem-solving) and open-book (reproducing classical solution methods)--were designed to evaluate the performance of six reasoning models on ancient Chinese mathematical problems. Results indicate that reasoning models can partially comprehend and solve these problems, yet their overall performance remains inferior to benchmarks on modern mathematical tasks. Enhancing models' classical Chinese comprehension and cultural knowledge should be prioritized for optimization. This study provides methodological support for mining mathematical knowledge from ancient texts and disseminating traditional culture, while offering new perspectives for evaluating cross-linguistic and cross-cultural capabilities of reasoning models.
- Abstract(参考訳): 本研究では,中国古代数学古典の知的な処理の課題を,スージュ史集に基づく古典テキスト評価のベンチマークであるGuji_MATHを構築することで解決する。
古典中国語の独特な言語的制約の下で、主流推論モデルの数学的問題解決能力を体系的に評価する。
機械支援アノテーションと手動検証により、8つの標準テキストから538の数学的問題を抽出し、「クエスト・アンサー・ソリューション」フレームワークを中心とした構造化データセットを作成し、問題の種類と難易度を補足した。
中国古代の数学問題に対する6つの推論モデルの性能を評価するために, 双対評価モード(自己解法)とオープンブック(古典解法)を設計した。
その結果、推論モデルはこれらの問題を部分的に理解し解決することができるが、その全体的な性能は現代の数学的なタスクのベンチマークよりも劣っていることが示唆された。
モデルの古典中国語理解と文化知識の強化は最適化のために優先されるべきである。
本研究は,古文書から数学知識を抽出し,伝統的な文化を広めるための方法論的支援を提供するとともに,推論モデルの言語横断的・異文化的能力を評価するための新たな視点を提供する。
関連論文リスト
- HARDMath2: A Benchmark for Applied Mathematics Built by Students as Part of a Graduate Class [27.93059568425132]
HARDMath2は、大学院応用数学クラスの中核トピックをカバーする211のオリジナル問題のデータセットである。
このデータセットはハーバード大学のコア大学院数学コースの学生とインストラクターによって設計され、検証された。
このデータセットは、学生がクラスシラバスと整合した難しい問題を書き、洗練するよう促す、新しい協調環境を通じて構築されます。
論文 参考訳(メタデータ) (2025-05-17T00:52:49Z) - Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z) - Fùxì: A Benchmark for Evaluating Language Models on Ancient Chinese Text Understanding and Generation [20.87296508045343]
我々は21種類のタスクに対する理解と生成の両方の能力を評価する総合的なベンチマークであるFuxiを紹介する。
我々は,理解タスクと生成タスクの間に大きなパフォーマンスギャップを生じさせ,モデルが有望な結果を得るためには理解が難しいが,生成タスクではかなり苦労する。
本研究は,古代中国のテキスト処理における現状の限界に注目し,今後のモデル開発への洞察を提供するものである。
論文 参考訳(メタデータ) (2025-03-20T04:26:40Z) - PromptCoT: Synthesizing Olympiad-level Problems for Mathematical Reasoning in Large Language Models [59.920971312822736]
本稿では,高品質なオリンピアードレベルの数学問題を自動生成する新しい手法であるPromptCoTを紹介する。
提案手法は,問題構築の背景にある数学的概念と理論的根拠に基づいて複雑な問題を合成する。
提案手法は, GSM8K, MATH-500, AIME2024などの標準ベンチマークで評価され, 既存の問題生成手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-03-04T06:32:30Z) - A Survey of Deep Learning for Mathematical Reasoning [71.88150173381153]
我々は過去10年間の数学的推論とディープラーニングの交差点における重要なタスク、データセット、方法についてレビューする。
大規模ニューラルネットワークモデルの最近の進歩は、新しいベンチマークと、数学的推論にディープラーニングを使用する機会を開放している。
論文 参考訳(メタデータ) (2022-12-20T18:46:16Z) - JiuZhang: A Chinese Pre-trained Language Model for Mathematical Problem
Understanding [74.12405417718054]
本稿では,中国初の数学的事前学習言語モデル(PLM)を提示することにより,機械の数学的知性向上を目指す。
他の標準のNLPタスクとは異なり、数学的テキストは問題文に数学的用語、記号、公式を含むため理解が難しい。
基礎課程と上級課程の両方からなる数学PLMの学習を改善するための新しいカリキュラム事前学習手法を設計する。
論文 参考訳(メタデータ) (2022-06-13T17:03:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。