論文の概要: Automatically Generating Hard Math Problems from Hypothesis-Driven Error Analysis
- arxiv url: http://arxiv.org/abs/2604.04386v1
- Date: Mon, 06 Apr 2026 03:27:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.078384
- Title: Automatically Generating Hard Math Problems from Hypothesis-Driven Error Analysis
- Title(参考訳): 仮説駆動型誤差解析による問題の自動生成
- Authors: Jiayu Fu, Mourad Heddaya, Chenhao Tan,
- Abstract要約: LLMが抱える特定の数学概念とスキルを特定するために,AI生成仮説を用いた新しいベンチマーク生成パイプラインを提案する。
我々のパイプラインは高度に適応可能であり、幅広いLLM能力を探索するために数学以外の応用が可能である。
- 参考スコア(独自算出の注目度): 16.008582390875656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Numerous math benchmarks exist to evaluate LLMs' mathematical capabilities. However, most involve extensive manual effort and are difficult to scale. Consequently, they cannot keep pace with LLM development or easily provide new instances to mitigate overfitting. Some researchers have proposed automatic benchmark generation methods, but few focus on identifying the specific math concepts and skills on which LLMs are error-prone, and most can only generate category-specific benchmarks. To address these limitations, we propose a new math benchmark generation pipeline that uses AI-generated hypotheses to identify the specific math concepts and skills that LLMs struggle with, and then generates new benchmark problems targeting these weaknesses. Experiments show that hypothesis accuracy positively correlates with the difficulty of the generated problems: problems generated from the most accurate hypotheses reduce Llama-3.3-70B-Instruct's accuracy to as low as 45%, compared to 77% on the original MATH benchmark. Furthermore, our pipeline is highly adaptable and can be applied beyond math to explore a wide range of LLM capabilities, making it a valuable tool for investigating how LLMs perform across different domains.
- Abstract(参考訳): LLMの数学的能力を評価するために、多くの数学ベンチマークが存在する。
しかし、ほとんどの場合、広範囲な手作業が伴い、拡張が困難である。
そのため、LLM開発に遅れをとらず、オーバーフィッティングを緩和するための新しいインスタンスを簡単に提供できない。
一部の研究者は自動ベンチマーク生成法を提案しているが、LSMがエラーを起こしやすい特定の数学の概念とスキルを特定することにはほとんど焦点を当てておらず、ほとんどの場合、カテゴリ固有のベンチマークしか生成できない。
これらの制約に対処するために、AI生成仮説を用いた新しい数学ベンチマーク生成パイプラインを提案し、LLMが抱える特定の数学概念とスキルを特定し、これらの弱点をターゲットとした新しいベンチマーク問題を生成する。
最も正確な仮説から生じる問題は、オリジナルのMATHベンチマークの77%と比較して、Llama-3.3-70B-Instructの精度を45%にまで低下させる。
さらに、我々のパイプラインは高度に適応可能であり、幅広いLLM能力を探索するために数学以外の応用が可能であり、異なるドメイン間でLLMがどのように機能するかを調査するための貴重なツールである。
関連論文リスト
- Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - HARDMath: A Benchmark Dataset for Challenging Problems in Applied Mathematics [1.5716764919736026]
本稿では,解析的近似技術を必要とする応用数学問題に挑戦するデータセットであるHARDMathを紹介する。
本フレームワークは,数値基底真理に対して検証された解を用いて,多数の問題を自動生成する。
HARDMath-miniは,366問題からなるサブサンプルテストセットであり,応用科学の文脈で定式化された40の単語問題に対して,オープンソースLLMとクローズドソースLLMの両方を評価する。
論文 参考訳(メタデータ) (2024-10-13T20:09:41Z) - Large Language Models Struggle with Unreasonability in Math Problems [41.970853209666224]
大規模言語モデル(LLM)は、幅広い数学と推論のベンチマークで顕著な成功を収めている。
我々は、不合理な数学問題に直面した時にしばしば苦労するのを観察する。
我々は,不合理な数学問題文を検出し,応答するLLMの能力を評価するために,textbfUnreasonable Math Problems (UMP)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-03-28T12:04:28Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step
Reasoning [55.76083560152823]
SelfCheckは、ステップバイステップの推論でエラーを認識する汎用的なゼロショット検証スキーマである。
我々は,3つのデータセット(GSM8K,MathQA,MATH)上でSelfCheckをテストし,エラーの認識に成功し,最終的な回答精度が向上することを確認した。
論文 参考訳(メタデータ) (2023-08-01T10:31:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。