論文の概要: MM-Agent: LLM as Agents for Real-world Mathematical Modeling Problem
- arxiv url: http://arxiv.org/abs/2505.14148v1
- Date: Tue, 20 May 2025 09:55:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.045323
- Title: MM-Agent: LLM as Agents for Real-world Mathematical Modeling Problem
- Title(参考訳): MM-Agent:実世界の数学的モデリング問題のエージェントとしてのLLM
- Authors: Fan Liu, Zherui Yang, Cancheng Liu, Tianrui Song, Xiaofeng Gao, Hao Liu,
- Abstract要約: 我々は,Large Language Models (LLMs) を用いた実世界の数学的モデリングのタスクを定式化する。
本稿では,オープンエンド問題解析,構造化モデル定式化,計算問題解決,レポート生成の4つの段階に,モデリングを分解する専門家主導のフレームワークMM-Agentを提案する。
MM-Agentはベースラインエージェントを著しく上回り、人間の専門家ソリューションよりも11.88%改善している。
- 参考スコア(独自算出の注目度): 11.81434494801394
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Mathematical modeling is a cornerstone of scientific discovery and engineering practice, enabling the translation of real-world problems into formal systems across domains such as physics, biology, and economics. Unlike mathematical reasoning, which assumes a predefined formulation, modeling requires open-ended problem analysis, abstraction, and principled formalization. While Large Language Models (LLMs) have shown strong reasoning capabilities, they fall short in rigorous model construction, limiting their utility in real-world problem-solving. To this end, we formalize the task of LLM-powered real-world mathematical modeling, where agents must analyze problems, construct domain-appropriate formulations, and generate complete end-to-end solutions. We introduce MM-Bench, a curated benchmark of 111 problems from the Mathematical Contest in Modeling (MCM/ICM), spanning the years 2000 to 2025 and across ten diverse domains such as physics, biology, and economics. To tackle this task, we propose MM-Agent, an expert-inspired framework that decomposes mathematical modeling into four stages: open-ended problem analysis, structured model formulation, computational problem solving, and report generation. Experiments on MM-Bench show that MM-Agent significantly outperforms baseline agents, achieving an 11.88\% improvement over human expert solutions while requiring only 15 minutes and \$0.88 per task using GPT-4o. Furthermore, under official MCM/ICM protocols, MM-Agent assisted two undergraduate teams in winning the Finalist Award (\textbf{top 2.0\% among 27,456 teams}) in MCM/ICM 2025, demonstrating its practical effectiveness as a modeling copilot. Our code is available at https://github.com/usail-hkust/LLM-MM-Agent
- Abstract(参考訳): 数学的モデリングは科学的な発見と工学の実践の基礎であり、現実世界の問題を物理学、生物学、経済学などの分野にまたがる形式的なシステムに翻訳することができる。
事前定義された定式化を前提とする数学的推論とは異なり、モデリングにはオープンな問題解析、抽象化、原則化された形式化が必要である。
大規模言語モデル(LLM)は強力な推論能力を示しているが、厳密なモデル構築には乏しく、現実の問題解決における実用性を制限している。
この目的のために, LLMを用いた実世界の数学的モデリングのタスクを定式化し, エージェントは問題を解析し, ドメインに適した定式化を行い, 完全なエンドツーエンドの解を生成する。
MCM/ICM(Mathematical Contest in Modeling)では,2000年から2025年にかけて,物理,生物学,経済学など10分野にまたがる111の問題をキュレートしたベンチマークであるMM-Benchを紹介した。
この課題に取り組むために,オープンエンド問題解析,構造化モデル定式化,計算問題解決,レポート生成の4段階に,数学的モデリングを分解する専門家主導のフレームワークMM-Agentを提案する。
MM-Benchの実験では、MM-Agentはベースラインエージェントを著しく上回り、GPT-4oを用いて1タスクあたり15分と0.88ドルしか必要とせず、人間の専門家ソリューションよりも11.88.%改善している。
さらに、公式のMCM/ICMプロトコルの下で、MM-Agentは、MCM/ICM 2025でファイナリスト賞(27,456チーム中、\textbf{top 2.0\%)を受賞する2つの学部チームを支援した。
私たちのコードはhttps://github.com/usail-hkust/LLM-MM-Agentで利用可能です。
関連論文リスト
- MathAgent: Leveraging a Mixture-of-Math-Agent Framework for Real-World Multimodal Mathematical Error Detection [53.325457460187046]
これらの課題に対処するために設計された新しいMixture-of-Math-AgentフレームワークであるMathAgentを紹介する。
MathAgentはエラー検出を3つのフェーズに分解し、それぞれが特別なエージェントによって処理される。
実世界の教育データに基づいてMathAgentを評価し,誤差ステップ同定の精度を約5%向上した。
論文 参考訳(メタデータ) (2025-03-23T16:25:08Z) - MathFimer: Enhancing Mathematical Reasoning by Expanding Reasoning Steps through Fill-in-the-Middle Task [49.355810887265925]
数学的推論ステップ拡張のための新しいフレームワークであるMathFimerを紹介する。
我々は、慎重にキュレートしたNuminaMath-FIMデータセットに基づいて、特殊モデルMathFimer-7Bを開発した。
次に、これらのモデルを適用して、解鎖に詳細な中間ステップを挿入することで、既存の数学的推論データセットを強化する。
論文 参考訳(メタデータ) (2025-02-17T11:22:24Z) - ProcessBench: Identifying Process Errors in Mathematical Reasoning [62.80402845414901]
本稿では,数学的推論における誤ったステップを識別する能力を測定するためのProcessBenchを紹介する。
ProcessBenchは3400のテストケースで構成され、主に競合とオリンピアードレベルの数学問題に焦点を当てている。
我々はProcessBenchについて、プロセス報酬モデル(PRM)と批判モデルという2種類のモデルを含む広範囲な評価を行う。
論文 参考訳(メタデータ) (2024-12-09T15:11:40Z) - LLMs for Mathematical Modeling: Towards Bridging the Gap between Natural and Mathematical Languages [14.04286044600141]
大規模言語モデル (LLM) は様々な自然言語処理タスクにおいて高い性能を示している。
しかし、数学的推論の習熟度は依然として重要な課題である。
LLMの数学的モデル構築能力を評価するためのプロセス指向フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-21T18:29:54Z) - Modeling Complex Mathematical Reasoning via Large Language Model based
MathAgent [15.81048994298046]
大規模言語モデル (LLM) は複雑な数学的問題を解く上で困難に直面している。
本稿では, エージェントベースのゼロショットフレームワークを用いて, LLMの数学的解法を公式に記述し, 拡張する。
miniF2FとMATHの実験では、PreRとMathAgentsの有効性が実証されている。
論文 参考訳(メタデータ) (2023-12-14T13:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。