論文の概要: ModelingAgent: Bridging LLMs and Mathematical Modeling for Real-World Challenges
- arxiv url: http://arxiv.org/abs/2505.15068v1
- Date: Wed, 21 May 2025 03:33:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.846207
- Title: ModelingAgent: Bridging LLMs and Mathematical Modeling for Real-World Challenges
- Title(参考訳): ModelingAgent: LLMのブリッジ化と実世界の挑戦のための数学的モデリング
- Authors: Cheng Qian, Hongyi Du, Hongru Wang, Xiusi Chen, Yuji Zhang, Avirup Sil, Chengxiang Zhai, Kathleen McKeown, Heng Ji,
- Abstract要約: ModelingBenchは、様々な領域にわたる数学モデリングの競争から、現実に着想を得たオープンエンドの問題を特徴付ける新しいベンチマークである。
これらのタスクには、自然言語を形式的な数学的定式化に翻訳し、適切なツールを適用し、構造化された防御可能なレポートを生成する必要がある。
ツール使用をコーディネートするマルチエージェントフレームワークである ModelingAgent も紹介します。
- 参考スコア(独自算出の注目度): 72.19809898215857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in large language models (LLMs) has enabled substantial advances in solving mathematical problems. However, existing benchmarks often fail to reflect the complexity of real-world problems, which demand open-ended, interdisciplinary reasoning and integration of computational tools. To address this gap, we introduce ModelingBench, a novel benchmark featuring real-world-inspired, open-ended problems from math modeling competitions across diverse domains, ranging from urban traffic optimization to ecosystem resource planning. These tasks require translating natural language into formal mathematical formulations, applying appropriate tools, and producing structured, defensible reports. ModelingBench also supports multiple valid solutions, capturing the ambiguity and creativity of practical modeling. We also present ModelingAgent, a multi-agent framework that coordinates tool use, supports structured workflows, and enables iterative self-refinement to generate well-grounded, creative solutions. To evaluate outputs, we further propose ModelingJudge, an expert-in-the-loop system leveraging LLMs as domain-specialized judges assessing solutions from multiple expert perspectives. Empirical results show that ModelingAgent substantially outperforms strong baselines and often produces solutions indistinguishable from those of human experts. Together, our work provides a comprehensive framework for evaluating and advancing real-world problem-solving in open-ended, interdisciplinary modeling challenges.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、数学的な問題を解く上で大きな進歩をもたらした。
しかし、既存のベンチマークは、オープンエンド、学際的推論、計算ツールの統合を必要とする現実世界の問題の複雑さを反映しないことが多い。
このギャップに対処するために,都市交通の最適化から生態系の資源計画に至るまで,さまざまな領域にわたる数学のモデリング競争から,現実に着想を得たオープンエンドの問題を特徴とする,新しいベンチマークである ModelingBench を紹介した。
これらのタスクには、自然言語を形式的な数学的定式化に翻訳し、適切なツールを適用し、構造化された防御可能なレポートを生成する必要がある。
ModelingBenchは複数の有効なソリューションをサポートし、実用的なモデリングの曖昧さとクリエイティビティをキャプチャする。
また、ツール使用をコーディネートするマルチエージェントフレームワークである ModelingAgent も提供し、構造化ワークフローをサポートし、反復的な自己リファインメントにより、しっかりと構築されたクリエイティブなソリューションを生成することができます。
出力を評価するために,複数の専門家の視点からソリューションを評価するドメイン特化判断器として LLM を活用するエキスパート・イン・ザ・ループシステムである ModelingJudge を提案する。
実験の結果、ModelingAgentは強いベースラインを著しく上回り、しばしば人間の専門家と区別できないソリューションを生み出します。
私たちの研究は、オープンエンドの学際的なモデリング課題において、現実世界の問題解決を評価し、前進するための包括的なフレームワークを提供しています。
関連論文リスト
- MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - Large Language Models for Water Distribution Systems Modeling and Decision-Making [5.962279205972996]
配水システム(WDS)の設計、運用、管理には複雑な数学的モデルが含まれる。
近年のLarge Language Models (LLM) の進歩は、人間-モデル相互作用の新しい段階への扉を開く。
本研究では, LLM-EPANETアーキテクチャに基づく水理モデルと水質モデルとのプレーン言語相互作用の枠組みを提案する。
論文 参考訳(メタデータ) (2025-03-20T14:39:11Z) - On the Utility of Domain Modeling Assistance with Large Language Models [2.874893537471256]
本稿では,大規模言語モデル(LLM)とドメインモデリング支援のための数発のプロンプト学習を利用した新しいアプローチの有用性を評価する。
このアプローチの目的は、不足するドメイン固有のデータセット上で、AIベースの補完モデルの広範なトレーニングの必要性を克服することである。
論文 参考訳(メタデータ) (2024-10-16T13:55:34Z) - Generative AI Agents with Large Language Model for Satellite Networks via a Mixture of Experts Transmission [74.10928850232717]
本稿では、モデル定式化のための生成人工知能(AI)エージェントを開発し、送信戦略の設計に専門家(MoE)の混合を適用した。
具体的には,大規模言語モデル(LLM)を活用して対話型モデリングパラダイムを構築する。
定式化問題の解法として, MoE-proximal Policy Optimization (PPO) アプローチを提案する。
論文 参考訳(メタデータ) (2024-04-14T03:44:54Z) - Solution-oriented Agent-based Models Generation with Verifier-assisted
Iterative In-context Learning [10.67134969207797]
エージェントベースのモデル(ABM)は、仮説的な解決策やポリシーの提案と検証に不可欠なパラダイムである。
大きな言語モデル(LLM)は、ドメイン間の知識とプログラミング能力をカプセル化することで、このプロセスの難しさを軽減できる可能性がある。
SAGEは、ターゲット問題に対する自動モデリングおよびソリューション生成のために設計された、汎用的なソリューション指向のABM生成フレームワークである。
論文 参考訳(メタデータ) (2024-02-04T07:59:06Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - GLUECons: A Generic Benchmark for Learning Under Constraints [102.78051169725455]
本研究では,自然言語処理とコンピュータビジョンの分野における9つのタスクの集合であるベンチマークを作成する。
外部知識を制約としてモデル化し、各タスクの制約のソースを特定し、これらの制約を使用するさまざまなモデルを実装します。
論文 参考訳(メタデータ) (2023-02-16T16:45:36Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - Bayesian Stress Testing of Models in a Classification Hierarchy [0.0]
現実のアプリケーションで機械学習ソリューションを構築するには、しばしば、問題を様々な複雑さの複数のモデルに分解する。
このような階層内のモデル間の相互作用をモデル化するためのベイズ的枠組みを提案する。
我々は、このフレームワークが全体的なソリューションのストレステストを容易にし、アクティブなデプロイ前に期待されるパフォーマンスをより信頼できることを示した。
論文 参考訳(メタデータ) (2020-05-25T18:22:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。