論文の概要: StatEval: A Comprehensive Benchmark for Large Language Models in Statistics
- arxiv url: http://arxiv.org/abs/2510.09517v1
- Date: Fri, 10 Oct 2025 16:28:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:49.391113
- Title: StatEval: A Comprehensive Benchmark for Large Language Models in Statistics
- Title(参考訳): StatEval: 統計学における大規模言語モデルの総合ベンチマーク
- Authors: Yuchen Lu, Run Yang, Yichen Zhang, Shuguang Yu, Runpeng Dai, Ziwei Wang, Jiayi Xiang, Wenxin E, Siran Gao, Xinyao Ruan, Yirui Huang, Chenjing Xi, Haibo Hu, Yueming Fu, Qinglan Yu, Xiaobing Wei, Jiani Gu, Rui Sun, Jiaxuan Jia, Fan Zhou,
- Abstract要約: StatEvalは統計学に特化した最初の総合ベンチマークであり、難易度をまたいだ幅と深さの両方にまたがる。
学部と大学院のカリキュラムに関する13,817の基本的な問題と、主要な雑誌から抽出された2374の研究レベルの証明タスクで構成されている。
本稿では,算術的タスクと証明的タスクの両方に適したロバストな評価フレームワークを提案し,推論能力のきめ細かい評価を可能にする。
- 参考スコア(独自算出の注目度): 18.64342811887586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable advances in mathematical and logical reasoning, yet statistics, as a distinct and integrative discipline, remains underexplored in benchmarking efforts. To address this gap, we introduce \textbf{StatEval}, the first comprehensive benchmark dedicated to statistics, spanning both breadth and depth across difficulty levels. StatEval consists of 13,817 foundational problems covering undergraduate and graduate curricula, together with 2374 research-level proof tasks extracted from leading journals. To construct the benchmark, we design a scalable multi-agent pipeline with human-in-the-loop validation that automates large-scale problem extraction, rewriting, and quality control, while ensuring academic rigor. We further propose a robust evaluation framework tailored to both computational and proof-based tasks, enabling fine-grained assessment of reasoning ability. Experimental results reveal that while closed-source models such as GPT5-mini achieve below 57\% on research-level problems, with open-source models performing significantly lower. These findings highlight the unique challenges of statistical reasoning and the limitations of current LLMs. We expect StatEval to serve as a rigorous benchmark for advancing statistical intelligence in large language models. All data and code are available on our web platform: https://stateval.github.io/.
- Abstract(参考訳): 大規模言語モデル (LLMs) は、数学的および論理的推論において顕著な進歩を示したが、統計学は、区別され、統合的な分野として、ベンチマークの取り組みにおいて過小評価されている。
このギャップに対処するために、統計学に特化した最初の総合的なベンチマークである \textbf{StatEval} を導入し、難易度にまたがる幅と深さの両方にまたがる。
StatEvalは、学部と大学院のカリキュラムに関する13,817の基本的な問題と、主要な雑誌から抽出された2374の研究レベルの証明タスクで構成されている。
このベンチマークを構築するために,大規模問題抽出,書き換え,品質管理を自動化し,学術的厳密性を確保しつつ,人間のループ検証によるスケーラブルなマルチエージェントパイプラインを設計する。
さらに、計算と証明に基づくタスクの両方に適した堅牢な評価フレームワークを提案し、推論能力のきめ細かい評価を可能にした。
GPT5-miniのようなクローズドソースモデルは, 研究レベルの問題では57倍以下であり, オープンソースモデルの性能は著しく低下している。
これらの結果は,統計的推論の独特な課題と,現在のLCMの限界を浮き彫りにしている。
StatEvalは、大規模言語モデルにおける統計的インテリジェンス向上のための厳格なベンチマークとして機能することを期待している。
すべてのデータとコードは、私たちのWebプラットフォームで利用可能です。
関連論文リスト
- IMProofBench: Benchmarking AI on Research-Level Mathematical Proof Generation [4.991157581428135]
IMProofBenchは、専門家数学者によって開発された39のピアレビューされた問題からなるプライベートベンチマークである。
それぞれの問題は詳細な証明を必要とし、最終的な答えを持つサブプロブレムと組み合わせられる。
以前のベンチマークとは異なり、評価設定は現実的な研究環境をシミュレートする。
論文 参考訳(メタデータ) (2025-09-30T10:50:37Z) - Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination [67.67725938962798]
大規模なWebスケールコーパスの事前トレーニングは、広く使用されているベンチマークでデータ汚染の影響を受けやすいQwen2.5が残る。
我々はRandomCalculationと呼ばれる任意の長さと難易度を持つ完全クリーンな算術問題を生成するジェネレータを導入する。
精度の高い報酬信号のみがベースモデルの性能境界を超える安定した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2025-07-14T17:55:15Z) - Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z) - Explore Theory of Mind: Program-guided adversarial data generation for theory of mind reasoning [88.68573198200698]
本研究では,多様で挑戦的な心的データ理論を大規模に生成するための最初のフレームワークであるExploreToMを紹介する。
我々のアプローチは、A*検索をカスタムドメイン特化言語に利用して、複雑なストーリ構造と、新しく、多様だが、もっともらしいシナリオを生成します。
評価の結果,Llama-3.1-70B や GPT-4o などの最先端 LLM はExploreToM 生成データに対して0%,9% の精度を示した。
論文 参考訳(メタデータ) (2024-12-12T21:29:00Z) - Are LLMs Capable of Data-based Statistical and Causal Reasoning? Benchmarking Advanced Quantitative Reasoning with Data [89.2410799619405]
実世界のデータを用いた統計的および因果推論において,大規模言語モデルの能力を評価するために,データベンチマークを用いた定量的推論を導入する。
このベンチマークは、教科書、オンライン学習教材、学術論文のデータシートを伴う411の質問のデータセットで構成されている。
データとテキストに対するモデルの量的推論能力を比較するために、ベンチマークを290のテキストのみの質問、すなわちQRTextで強化する。
論文 参考訳(メタデータ) (2024-02-27T16:15:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。