論文の概要: SKYLENAGE Technical Report: Mathematical Reasoning and Contest-Innovation Benchmarks for Multi-Level Math Evaluation
- arxiv url: http://arxiv.org/abs/2510.01241v1
- Date: Wed, 24 Sep 2025 02:09:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.744735
- Title: SKYLENAGE Technical Report: Mathematical Reasoning and Contest-Innovation Benchmarks for Multi-Level Math Evaluation
- Title(参考訳): SKYLENAGE Technical Report: Mathematical Reasoning and Contest-Innovation Benchmarks for Multi-Level Math Evaluation
- Authors: Hu Wei, Ze Xu, Boyu Yang, Linlin Miao, Weiqi Zhai, Yihan Li, Zixuan Li, Zhijun Wang, Boya Wang, Jianwei Yu, Jialing Yuan, Xiaoyue Zhang, Cheng He, Minglei Chen, Zifan Zhang, Qianhui Li, Wei Wang, Xiang Xu,
- Abstract要約: 大規模言語モデル(LLM)は今や多くの公的な数学スイートで強く機能しているが、数学におけるフロンティア分離は天井効果に悩まされている。
本稿では,SKYLENAGE-ReasoningMATHとSKYLENAGE-MATH,SKYLENAGE-MATH,SKYLENAGE-MATH,SKYLENAGE-MATH,SKYLENAGE-MATH,SKYLENAGE-MATH,SKYLENAGE- MATH,SKYLENAGE-MATH,SKYLENAGE-MATH,SKYLENAGE-MATH,SKYLENAGE-MATH,SKYLENAGE-MATH,SKYLENAGE-MATH,SKYLE NAGE-MATH,SKYLENAGE-MATH,SKYLENAGE-MATH,SK。
- 参考スコア(独自算出の注目度): 19.14400666431941
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) now perform strongly on many public math suites, yet frontier separation within mathematics increasingly suffers from ceiling effects. We present two complementary benchmarks: SKYLENAGE-ReasoningMATH, a 100-item, structure-aware diagnostic set with per-item metadata on length, numeric density, and symbolic complexity; and SKYLENAGE-MATH, a 150-item contest-style suite spanning four stages from high school to doctoral under a seven-subject taxonomy. We evaluate fifteen contemporary LLM variants under a single setup and analyze subject x model and grade x model performance. On the contest suite, the strongest model reaches 44% while the runner-up reaches 37%; accuracy declines from high school to doctoral, and top systems exhibit a doctoral-to-high-school retention near 79%. On the reasoning set, the best model attains 81% overall, and hardest-slice results reveal clear robustness gaps between leaders and the mid-tier. In summary, we release SKYLENAGE-ReasoningMATH and report aggregate results for SKYLENAGE-MATH; together, SKYLENAGE provides a hard, reasoning-centered and broadly covering math benchmark with calibrated difficulty and rich metadata, serving as a reference benchmark for future evaluations of mathematical reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)は今や多くの公的な数学スイートで強く機能しているが、数学におけるフロンティア分離は天井効果に悩まされている。
本稿では,SKYLENAGE-ReasoningMATHとSKYLENAGE-MATH,SKYLENAGE-MATH,SKYLENAGE-MATH,SKYLENAGE-MATH,SKYLENAGE-MATH,SKYLENAGE-MATH,SKYLENAGE- MATH,SKYLENAGE-MATH,SKYLENAGE-MATH,SKYLENAGE-MATH,SKYLENAGE-MATH,SKYLENAGE-MATH,SKYLENAGE-MATH,SKYLE NAGE-MATHの2つの相補ベンチマークを行った。
1つのセットアップで15の現代LLM変種を評価し、対象xモデルとグレードxモデルの性能を解析した。
コンテストスイートでは、最強のモデルが44%、ランナーが37%、正確さが高校から博士に低下し、上位システムは79%近くで博士-高校の保持率を示している。
推論セットでは、最高のモデルが全体の81%に達し、最も厳しいスライスの結果は、リーダと中間層の明確な堅牢性ギャップを明らかにします。
まとめると、SKYLENAGE-ReasoningMATH と SKYLENAGE-MATH の集計結果を報告し、SKYLENAGE は、厳密で推論中心の、より広範にカバーされた数学ベンチマークを提供する。
関連論文リスト
- IMProofBench: Benchmarking AI on Research-Level Mathematical Proof Generation [4.991157581428135]
IMProofBenchは、専門家数学者によって開発された39のピアレビューされた問題からなるプライベートベンチマークである。
それぞれの問題は詳細な証明を必要とし、最終的な答えを持つサブプロブレムと組み合わせられる。
以前のベンチマークとは異なり、評価設定は現実的な研究環境をシミュレートする。
論文 参考訳(メタデータ) (2025-09-30T10:50:37Z) - Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z) - Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models [63.31878920079154]
Olympiadレベルでの大規模言語モデルの数学的推論を評価するためのベンチマークを提案する。
既存のOlympiad関連のベンチマークとは違って、我々のデータセットは数学に特化しており、厳密な人間のアノテーションを使った4428の競合レベルの問題の膨大なコレクションを含んでいる。
実験の結果,最も先進的なモデルであるOpenAI o1-miniとOpenAI o1-previewでさえ,60.54%と52.55%の精度で,オリンピアードレベルの問題に悩まされ,オリンピアードレベルの数学的推論において重大な課題が浮き彫りにされていることがわかった。
論文 参考訳(メタデータ) (2024-10-10T14:39:33Z) - Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On [55.449818944278526]
一般的な7B言語モデル上での教師付き微調整(SFT)であるSkywork-Mathモデルシリーズを紹介する。
Skywork-Math 7Bは競争レベルのMATHベンチマークで51.2%の精度を達成した。
我々は,LLMの数学推論能力を高めるために,研究用と産業用の両方で,いくつかの実践的なテイクアウトを提供する。
論文 参考訳(メタデータ) (2024-07-11T09:56:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。