論文の概要: RoMathExam: A Longitudinal Dataset of Romanian Math Exams (1895-2025) with a Seven-Decade Core (1957-2025)
- arxiv url: http://arxiv.org/abs/2604.16392v1
- Date: Sat, 28 Mar 2026 13:29:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:13.95672
- Title: RoMathExam: A Longitudinal Dataset of Romanian Math Exams (1895-2025) with a Seven-Decade Core (1957-2025)
- Title(参考訳): RoMathExam: An Longitudinal Dataset of Romanian Math Exams (1895-2025) with a Seven-Decade Core (1957-2025)
- Authors: Luca-Ncolae Cuclea, Sabin-Codrut Badea, Adrian-Marius Dumitran,
- Abstract要約: RoMathExam (RoMathExam) は、1895年から2025年までのルーマニアの高校数学試験の時系列データセットである。
データセットには、複数のトラックにまたがる600以上の完全な試験セットにまとめられた10,592の数学問題が含まれている。
- 参考スコア(独自算出の注目度): 0.15293427903448023
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: AI in Education research increasingly relies on authentic, curriculum-grounded assessment data, yet large, well-structured exam corpora remain scarce for many languages and educational systems. We introduce RoMathExam, a longitudinal dataset of Romanian high-school mathematics exams spanning 1895-2025, with a robust standardized core for 1957-2025. The dataset contains 10,592 mathematics problems organized into 600+ complete exam sets across multiple tracks (M1-M4), covering both official national examination sessions and ministry-published training variants. Beyond high-fidelity digitization and a unified JSON schema with traceable provenance, RoMathExam is enriched with curriculum-aligned topic tags and dense text embeddings, enabling variant detection, deduplication, and similarity-based retrieval. To overcome the lack of historical psychometric data, we propose and validate a solution complexity metric as a scalable intrinsic proxy for difficulty. Our evaluation across three frontier reasoning models (GPT-5-mini, DeepSeek-R1, and Qwen3-235B-Thinking) reveals high cross-model synchronization (r > 0.72), confirming the metric's ability to isolate intrinsic mathematical depth from stochastic generation noise. We demonstrate the dataset's utility through a longitudinal analysis that quantifies a "regime shift" from volatile historical formats to a standardized, algebra-dominant modern curriculum. RoMathExam provides a foundation for reproducible research in difficulty modeling, curriculum analytics, and LLM evaluation in low-resource linguistic contexts.
- Abstract(参考訳): AI in Education(AI)の研究は、真正でカリキュラムに基づく評価データにますます依存しているが、多くの言語や教育システムでは、大きな、十分に構造化された試験コーパスが不足している。
ルーマニアの高校数学試験の縦断的データセットであるRoMathExamについて紹介する。
データセットには、複数のトラック(M1-M4)にまたがる600以上の完全な試験セットにまとめられた10,592の数学問題が含まれており、公式の国家試験セッションと省が発行する訓練版の両方をカバーする。
高忠実度デジタル化とトレーサビリティを備えた統一JSONスキーマに加えて、RoMathExamにはカリキュラムに準拠したトピックタグと高密度テキスト埋め込みが組み込まれており、変分検出、重複削除、類似性ベースの検索を可能にしている。
歴史的心理測定データの欠如を克服するために,難易度に対する拡張性のある内在的プロキシとして,解複雑性計量を提案し,検証する。
3つのフロンティア推論モデル(GPT-5-mini, DeepSeek-R1, Qwen3-235B-Thinking)で評価した結果, 確率的生成ノイズから固有数学的深度を分離する能力が確認された。
本稿では, 不安定な歴史的形式から標準化された代数に支配的な現代カリキュラムへの「登録シフト」を定量化する縦断解析により, データセットの有用性を実証する。
RoMathExamは、低リソースの言語文脈における難易度モデリング、カリキュラム分析、LLM評価に関する再現可能な研究の基盤を提供する。
関連論文リスト
- Closing the Gap: Data-Centric Fine-Tuning of Vision Language Models for the Standardized Exam Questions [0.0]
高品質なデータによる教師付き微調整は、プロプライエタリなアプローチと競合する可能性があることを示す。
以上の結果から,データ合成と表現構文がマルチモーダル推論において決定的な役割を果たすことが明らかとなった。
論文 参考訳(メタデータ) (2025-11-14T14:28:14Z) - StatEval: A Comprehensive Benchmark for Large Language Models in Statistics [18.64342811887586]
StatEvalは統計学に特化した最初の総合ベンチマークであり、難易度をまたいだ幅と深さの両方にまたがる。
学部と大学院のカリキュラムに関する13,817の基本的な問題と、主要な雑誌から抽出された2374の研究レベルの証明タスクで構成されている。
本稿では,算術的タスクと証明的タスクの両方に適したロバストな評価フレームワークを提案し,推論能力のきめ細かい評価を可能にする。
論文 参考訳(メタデータ) (2025-10-10T16:28:43Z) - Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences [2.7405470973070547]
音声の数学的表現の変換は、厳密に構造化された記号表現への音声の書き起こしを伴う難しい作業である。
66,000人以上の人手による数学的方程式と文のオーディオサンプルからなる、最初の完全にオープンソースな大規模データセットを提示する。
論文 参考訳(メタデータ) (2025-08-05T15:11:37Z) - DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning [95.31714779585272]
DeepMath-103Kは、高い難易度(主に5-9レベル)で設計された大規模な数学的データセットである
これには、多数のベンチマークに対する厳格な除染、ルールベースのRL報酬に対する検証可能な回答が含まれる。
DeepMath-103Kは一般化可能な推論の進展を促進する。
論文 参考訳(メタデータ) (2025-04-15T17:59:51Z) - Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z) - InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning [58.7966588457529]
InfiMM-WebMath-40Bは、インターリーブされた画像テキスト文書の高品質なデータセットである。
ウェブページは2400万、画像URLは8500万、テキストトークンは400億だ。
テキストのみのベンチマークでは,400億トークンしか利用していないにもかかわらず,データセットは1.3Bモデルの性能を大幅に向上させることが示された。
私たちのモデルは、MathVerseやWe-Mathといったマルチモーダルな数学ベンチマーク上で、オープンソースモデルの中で新しい最先端のモデルを設定しました。
論文 参考訳(メタデータ) (2024-09-19T08:41:21Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Reliable Evaluation and Benchmarks for Statement Autoformalization [18.218951526592914]
改良されたメトリクス、堅牢なベンチマーク、体系的な評価を組み合わせた総合的なアプローチを提案する。
まず、評価指標の質を評価するための新しいデータセットであるProofNetVerifとともに、人間の判断と強く相関する自動メトリクスBEq+を紹介する。
ProofNet#はProofNetの修正版であり、RLM25は6つの形式化プロジェクトから619の新しい研究レベルの数学のペアである。
論文 参考訳(メタデータ) (2024-06-11T13:01:50Z) - ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational
Finance Question Answering [70.6359636116848]
本稿では,対話型質問応答における数値推論の連鎖を研究するために,新しい大規模データセットConvFinQAを提案する。
我々のデータセットは、現実世界の会話において、長距離で複雑な数値推論パスをモデル化する上で大きな課題となる。
論文 参考訳(メタデータ) (2022-10-07T23:48:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。