論文の概要: Max It or Miss It: Benchmarking LLM On Solving Extremal Problems
- arxiv url: http://arxiv.org/abs/2510.12997v1
- Date: Tue, 14 Oct 2025 21:23:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.427366
- Title: Max It or Miss It: Benchmarking LLM On Solving Extremal Problems
- Title(参考訳): Max it or Miss it: 極端問題を解決するためのLLMのベンチマーク
- Authors: Binxin Gao, Jingjun Han,
- Abstract要約: 数学的極端問題を解くためのベンチマークデータセットExtremBenchを紹介する。
我々は、Qwen3、GPT-OSS、DeepSeekなど、最先端のオープンソースモデルファミリーで評価を行う。
その結果、LLMの極端解法推論能力は、現在の数学ベンチマークと必ずしも一致しないことがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time scaling has enabled Large Language Models (LLMs) with remarkable reasoning capabilities, particularly in mathematical domains, through intermediate chain-of-thought (CoT) reasoning before generating final answers. However, the specific sources and mechanisms underlying these reasoning capabilities remain insufficiently understood. Optimization reasoning, i.e. finding extrema under constraints, represents a fundamental abstraction that underpins critical applications in planning, control, resource allocation, and prompt search. To systematically evaluate this capability, we introduce ExtremBench, a benchmark dataset for solving mathematical extremal problems, curated from inequality exercises used for Chinese Mathematical Olympiad and transformed into $93$ standardized extrema-finding problems. We conduct extensive evaluations across various state-of-the-art open-source model families, including the Qwen3, GPT-OSS, and DeepSeek. Our results reveal that LLMs' extremal-solving reasoning capabilities do not always align with those of current mathematical benchmarks such as AIME25 and MATH-500, with some models showing strong general mathematical reasoning but poor extremal-solving skills, and vice versa. This discrepancy highlights a critical gap in current evaluation practices and suggests that existing benchmarks may not comprehensively capture the full spectrum of mathematical reasoning abilities.
- Abstract(参考訳): テスト時のスケーリングにより、特に数学領域において、最終的な答えを生成する前に中間チェーン・オブ・シント(CoT)推論を通じて、顕著な推論能力を持つLarge Language Models(LLM)が実現された。
しかし、これらの推論能力の根底にある特定の情報源やメカニズムはいまだに十分に理解されていない。
最適化推論(英: Optimization reasoning、すなわち、制約の下での極限を見つける)は、計画、制御、資源割り当て、迅速な探索において重要な応用の基盤となる基本的な抽象概念である。
この能力を体系的に評価するために,中国の数学オリンピアードで用いられる不等式エクササイズから算出した数学的極端問題を解くためのベンチマークデータセットExtremBenchを導入し,930ドルの標準化された極端フィンディング問題に変換する。
我々は、Qwen3、GPT-OSS、DeepSeekなど、最先端のオープンソースモデルファミリの幅広い評価を行っている。
その結果, LLM の極端解法能力は, AIME25 や MATH-500 といった現在の数学ベンチマークと必ずしも一致しないことがわかった。
この不一致は、現在の評価実践における重要なギャップを強調し、既存のベンチマークが数学的推論能力の全スペクトルを包括的に捉えていないことを示唆している。
関連論文リスト
- Can LLMs $\textit{understand}$ Math? -- Exploring the Pitfalls in Mathematical Reasoning [0.0]
大規模言語モデル (LLM) は、様々な自然言語処理において大きな可能性を秘めているが、数学的推論において重大な課題に直面している。
そこで本研究では,誤り率,冗長性,妥当性を総合的に評価し,不一致の推論を均一に定量化するMAPLEスコア(Maple score)という評価指標を提案する。
論文 参考訳(メタデータ) (2025-05-21T15:12:20Z) - Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad [4.573289946657861]
我々は2025年のUSAMOの6つの問題に対する推論モデルを評価する。
Gemini-2.5-Proのみが25%という非自明なスコアを達成している。
以上の結果から,現在のLLMは厳密な数学的推論作業には不十分であることが示唆された。
論文 参考訳(メタデータ) (2025-03-27T19:21:05Z) - Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z) - PromptCoT: Synthesizing Olympiad-level Problems for Mathematical Reasoning in Large Language Models [59.920971312822736]
本稿では,高品質なオリンピアードレベルの数学問題を自動生成する新しい手法であるPromptCoTを紹介する。
提案手法は,問題構築の背景にある数学的概念と理論的根拠に基づいて複雑な問題を合成する。
提案手法は, GSM8K, MATH-500, AIME2024などの標準ベンチマークで評価され, 既存の問題生成手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-03-04T06:32:30Z) - ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。
ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。
2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。
GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文 参考訳(メタデータ) (2024-10-06T14:59:09Z) - Is Your Model Really A Good Math Reasoner? Evaluating Mathematical Reasoning with Checklist [46.670206614087334]
モデルが本当に問題を理解しているなら、さまざまなタスクにまたがって堅牢に適用されるべきである、と私たちは主張する。
MathCheckはタスクの一般化と推論をテストするためのよく設計されたチェックリストである。
MathCheckは真の数学的能力をよく反映し、数学的知性をより線形に表現する。
論文 参考訳(メタデータ) (2024-07-11T17:58:58Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。