論文の概要: GAUSS: Benchmarking Structured Mathematical Skills for Large Language Models
- arxiv url: http://arxiv.org/abs/2509.18122v1
- Date: Wed, 10 Sep 2025 17:35:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-28 15:30:14.384954
- Title: GAUSS: Benchmarking Structured Mathematical Skills for Large Language Models
- Title(参考訳): GAUSS:大規模言語モデルのための構造化数学スキルのベンチマーク
- Authors: Yue Zhang, Jiaxin Zhang, Qiuyu Ren, Tahsin Saffat, Xiaoxuan Liu, Zitong Yang, Banghua Zhu, Yi Ma,
- Abstract要約: textbfGAUSS (textbfUnderlying textbfStructured textbfSkills in Mathematics) は、12コアのスキル次元でLLMの数学的能力を評価するベンチマークである。
GAUSSは、認知能力に応じて問題を分類し、特定の能力を分離する設計タスクによって、モデルの数学的能力の包括的、きめ細かい、解釈可能なプロファイルを構築する。
- 参考スコア(独自算出の注目度): 28.084296621103643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce \textbf{GAUSS} (\textbf{G}eneral \textbf{A}ssessment of \textbf{U}nderlying \textbf{S}tructured \textbf{S}kills in Mathematics), a benchmark that evaluates LLMs' mathematical abilities across twelve core skill dimensions, grouped into three domains: knowledge and understanding, problem solving and communication, and meta-skills and creativity. By categorizing problems according to cognitive skills and designing tasks that isolate specific abilities, GAUSS constructs comprehensive, fine-grained, and interpretable profiles of models' mathematical abilities. These profiles faithfully represent their underlying mathematical intelligence. To exemplify how to use the \textsc{GAUSS} benchmark, we have derived the skill profile of \textsc{GPT-5-thinking}, revealing its strengths and weaknesses as well as its differences relative to \textsc{o4-mini-high}, thereby underscoring the value of multidimensional, skill-based evaluation.
- Abstract(参考訳): 我々は,12のコアスキル次元にまたがるLLMの数学的能力を評価するベンチマークである,知識と理解,問題解決,コミュニケーション,メタスキルと創造性の3つの領域に分類した。
GAUSSは、認知能力に応じて問題を分類し、特定の能力を分離する設計タスクによって、モデルの数学的能力の包括的、きめ細かい、解釈可能なプロファイルを構築する。
これらのプロファイルは、基礎となる数学的知性を忠実に表現している。
そこで我々は,<textsc{GPT-5-thinking} のスキルプロファイルを抽出し,その長所と短所,および <textsc{o4-mini-high} との差を明らかにした。
関連論文リスト
- OneEval: Benchmarking LLM Knowledge-intensive Reasoning over Diverse Knowledge Bases [38.58409057214189]
textbftextscOneEvalは、LLM(Large Language Models)の知識集約推論能力を評価するベンチマークである。
textscOneEvalは、慎重にキュレートされた4,019のインスタンスで構成され、特に難しいケースが1,285である、挑戦的なサブセットであるtextscOneEvaltextsubscriptHardを含んでいる。
我々は、構造化知識推論の継続的な進歩を促進するためのリーダーボードを伴って、textscOneEvalデータセット、評価スクリプト、ベースライン結果を公開した。
論文 参考訳(メタデータ) (2025-06-14T17:16:05Z) - CogMath: Assessing LLMs' Authentic Mathematical Ability from a Human Cognitive Perspective [68.94793547575343]
CogMathは、人間の推論プロセスを3段階に定式化している。
各次元において,この次元からLLMの熟達度を評価する問合せを生成するために,emphInquiry-emphJudge-emphReference'のマルチエージェントシステムの開発を行う。
LLMは、9次元からのすべての問い合わせに優れている場合にのみ、真に問題をマスターすると考えられている。
論文 参考訳(メタデータ) (2025-06-04T22:00:52Z) - The quasi-semantic competence of LLMs: a case study on the part-whole relation [53.37191762146552]
我々は,アンフィパル・ホール関係,すなわちアンフェロニミーの知識について検討する。
Emphquasi-semantic'のモデルは、単にemphquasi-semantic'の能力を持つだけで、深い推論特性の取得には至っていないことを示す。
論文 参考訳(メタデータ) (2025-04-03T08:41:26Z) - STEM-POM: Evaluating Language Models Math-Symbol Reasoning in Document Parsing [2.2315518704035595]
STEM-PoM(STEM-PoM)は,大規模言語モデルの数学記号に対する推論能力を評価するためのベンチマークデータセットである。
データセットには変数、定数、演算子、および単位記述子の主属性に分類される2K以上の数学記号が含まれている。
実験の結果,テキスト内学習では20~60%,微調整では50~60%の精度が得られた。
論文 参考訳(メタデータ) (2024-11-01T06:25:06Z) - From Next-Token to Mathematics: The Learning Dynamics of Mathematical Reasoning in Language Models [36.68179400642709]
大規模言語モデル (LLM) は、数学的推論に関わる幅広い問題を解くために学習する。
オープンウェイトLLMの数学的推論能力は,事前学習と後学習の間にどのように発達するかを示す。
論文 参考訳(メタデータ) (2024-07-01T01:56:28Z) - MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark [82.64129627675123]
MathBenchは、大規模言語モデルの数学的能力を厳格に評価する新しいベンチマークである。
MathBenchは幅広い数学の分野にまたがっており、理論的な理解と実践的な問題解決のスキルの両方を詳細に評価している。
論文 参考訳(メタデータ) (2024-05-20T17:52:29Z) - Evaluating LLMs' Mathematical Reasoning in Financial Document Question
Answering [53.56653281752486]
本研究では,大言語モデルによる4つの財務質問応答データセットの数学的推論について検討する。
数理推論のステップの数が増えるにつれて、テーブルの複雑さや性能の変化に対する感度に焦点をあてる。
半構造化文書に適した新しいプロンプト技術を導入する。
論文 参考訳(メタデータ) (2024-02-17T05:10:18Z) - Skills-in-Context Prompting: Unlocking Compositionality in Large Language Models [68.18370230899102]
大規模言語モデル(LLM)における構成一般化能力の活用法について検討する。
我々は,これらのスキルに基礎を置く基礎的スキルと構成的事例の両方を同じプロンプト・コンテキストで示すことが重要であることを発見した。
SKiC型データを用いた微調整LDMは、ゼロショット弱強一般化を導出できることを示す。
論文 参考訳(メタデータ) (2023-08-01T05:54:12Z) - JiuZhang: A Chinese Pre-trained Language Model for Mathematical Problem
Understanding [74.12405417718054]
本稿では,中国初の数学的事前学習言語モデル(PLM)を提示することにより,機械の数学的知性向上を目指す。
他の標準のNLPタスクとは異なり、数学的テキストは問題文に数学的用語、記号、公式を含むため理解が難しい。
基礎課程と上級課程の両方からなる数学PLMの学習を改善するための新しいカリキュラム事前学習手法を設計する。
論文 参考訳(メタデータ) (2022-06-13T17:03:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。