論文の概要: How Far Are We? Systematic Evaluation of LLMs vs. Human Experts in Mathematical Contest in Modeling
- arxiv url: http://arxiv.org/abs/2604.04791v1
- Date: Mon, 06 Apr 2026 15:58:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.267156
- Title: How Far Are We? Systematic Evaluation of LLMs vs. Human Experts in Mathematical Contest in Modeling
- Title(参考訳): どのくらい遠いのか?モデリングにおける数学的コンテストにおけるLLMと人間専門家の体系的評価
- Authors: Yuhang Liu, Heyan Huang, Yizhe Yang, Hongyan Zhao, Zhizhuo Zeng, Yang Gao,
- Abstract要約: 大規模言語モデル(LLM)は推論ベンチマークにおいて高いパフォーマンスを達成しているが、エンドツーエンドを必要とする現実世界の問題を解決する能力は未だ不明である。
本稿では、専門家が検証した基準を用いて、モデリング段階間でのLCM性能を評価する問題指向の段階評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 43.64673843846063
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have achieved strong performance on reasoning benchmarks, yet their ability to solve real-world problems requiring end-to-end workflows remains unclear. Mathematical modeling competitions provide a stringent testbed for evaluating such end-to-end problem-solving capability. We propose a problem-oriented, stage-wise evaluation framework that assesses LLM performance across modeling stages using expert-verified criteria. We validate the framework's reliability by comparing automatic scores with independent human expert judgments on problems from the China Postgraduate Mathematical Contest in Modeling, demonstrating substantially stronger alignment than existing evaluation schemes. Using this framework, we reveal a comprehension-execution gap in state-of-the-art LLMs: while they perform well in early stages such as problem identification and formulation, they exhibit persistent deficiencies in execution-oriented stages including model solving, code implementation, and result analysis. These gaps persist even with increased model scale. We further trace these failures to insufficient specification, missing verification, and lack of validation, with errors propagating across stages without correction. Our findings suggest that bridging this gap requires approaches beyond model scaling, offering insights for applying LLMs to complex real-world problem solving.
- Abstract(参考訳): 大規模言語モデル(LLM)は推論ベンチマークで高いパフォーマンスを達成しているが、エンドツーエンドのワークフローを必要とする現実の問題を解決する能力は未だに不明である。
数学的モデリングコンペティションは、このようなエンドツーエンドの問題解決能力を評価するための厳密なテストベッドを提供する。
本稿では、専門家が検証した基準を用いて、モデリング段階間でのLCM性能を評価する問題指向の段階評価フレームワークを提案する。
本研究は,中国大学院数学コンテストにおける課題に対する,自動スコアと人的専門家による独立した判断とを比較して,フレームワークの信頼性を検証し,既存の評価手法よりもはるかに強力なアライメントを示す。
このフレームワークを用いて,現状のLCMの理解と実行のギャップを明らかにする。問題の同定や定式化といった初期段階でよく機能するが,モデル解析やコード実装,結果解析など,実行指向の段階において永続的な欠陥を示す。
これらのギャップは、モデルスケールが増大しても持続する。
さらに、これらの失敗を、不十分な仕様、検証の欠如、検証の欠如まで追跡する。
このギャップを埋めるには、モデルスケーリング以上のアプローチが必要で、複雑な現実世界の問題解決にLLMを適用するための洞察を提供する。
関連論文リスト
- RankLLM: Weighted Ranking of LLMs by Quantifying Question Difficulty [102.02839046225468]
RankLLMは質問の難しさとモデルの能力の両方を定量化する新しいフレームワークである。
複数のドメインにまたがる35,550の質問に対して30のモデルを評価する。
論文 参考訳(メタデータ) (2026-02-12T21:28:46Z) - ORGEval: Graph-Theoretic Evaluation of LLMs in Optimization Modeling [18.8099769877788]
ORGEvalは線形および混合整数線形プログラムの定式化における大規模言語モデルの能力を評価するためのグラフ理論評価フレームワークである。
ORGEvalはモデル等価性の検出に成功し、ランダムなパラメータ構成で100%一貫した結果が得られることを示す。
この結果から,全てのLLMにおいて最適化モデリングは依然として困難であるが,DeepSeek-V3とClaude-Opus-4は直接的プロンプト下では最高の精度を達成できることがわかった。
論文 参考訳(メタデータ) (2025-10-31T16:35:52Z) - Reasoning with Preference Constraints: A Benchmark for Language Models in Many-to-One Matching Markets [13.111181135818184]
大規模言語モデル (LLM) は、最適化を含む複雑な数学的タスクにおいて強い性能を示している。
優先的かつ構造的な制約の下で推論を必要とする問題にLLMを適用することは、まだ未定である。
我々は,大学入学問題の369件の新たなベンチマークを用いて,実用性,安定性,最適性といった重要な次元にわたるLSMを評価する。
論文 参考訳(メタデータ) (2025-09-16T14:48:46Z) - Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。
GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。
提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T06:51:48Z) - Performance of LLMs on Stochastic Modeling Operations Research Problems: From Theory to Practice [18.040849771712093]
大規模言語モデル(LLM)は、さまざまな領域にまたがる専門家レベルの能力を示している。
しかし、オペレーティング・リサーチ(OR)における問題の解決能力はいまだ未解明のままである。
論文 参考訳(メタデータ) (2025-06-30T14:54:15Z) - ModelingAgent: Bridging LLMs and Mathematical Modeling for Real-World Challenges [72.19809898215857]
ModelingBenchは、様々な領域にわたる数学モデリングの競争から、現実に着想を得たオープンエンドの問題を特徴付ける新しいベンチマークである。
これらのタスクには、自然言語を形式的な数学的定式化に翻訳し、適切なツールを適用し、構造化された防御可能なレポートを生成する必要がある。
ツール使用をコーディネートするマルチエージェントフレームワークである ModelingAgent も紹介します。
論文 参考訳(メタデータ) (2025-05-21T03:33:23Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。