論文の概要: Performance of LLMs on Stochastic Modeling Operations Research Problems: From Theory to Practice
- arxiv url: http://arxiv.org/abs/2506.23924v1
- Date: Mon, 30 Jun 2025 14:54:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.110311
- Title: Performance of LLMs on Stochastic Modeling Operations Research Problems: From Theory to Practice
- Title(参考訳): 確率モデリング操作におけるLCMの性能:理論から実践へ
- Authors: Akshit Kumar, Tianyi Peng, Yuhang Wu, Assaf Zeevi,
- Abstract要約: 大規模言語モデル(LLM)は、さまざまな領域にまたがる専門家レベルの能力を示している。
しかし、オペレーティング・リサーチ(OR)における問題の解決能力はいまだ未解明のままである。
- 参考スコア(独自算出の注目度): 18.040849771712093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have exhibited expert-level capabilities across various domains. However, their abilities to solve problems in Operations Research (OR) -- the analysis and optimization of mathematical models derived from real-world problems or their verbal descriptions -- remain underexplored. In this work, we take a first step toward evaluating LLMs' abilities to solve stochastic modeling problems, a core class of OR problems characterized by uncertainty and typically involving tools from probability, statistics, and stochastic processes. We manually procure a representative set of graduate-level homework and doctoral qualification-exam problems and test LLMs' abilities to solve them. We further leverage SimOpt, an open-source library of simulation-optimization problems and solvers, to investigate LLMs' abilities to make real-world decisions under uncertainty. Our results show that, though a nontrivial amount of work is still needed to reliably automate the stochastic modeling pipeline in reality, state-of-the-art LLMs demonstrate proficiency on par with human experts in both classroom and practical settings. These findings highlight the potential of building AI agents that assist OR researchers and amplify the real-world impact of OR through automation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、さまざまな領域にまたがる専門家レベルの能力を示している。
しかし、実世界の問題やそれらの言葉による記述から導かれる数学的モデルの分析と最適化は、オペレーティングリサーチ(OR)における問題の解決能力に乏しいままである。
本研究では,確率的モデリング問題,不確実性を特徴とするOR問題の中核クラス,確率,統計,確率過程のツールを含むLSMの解法を評価するための第一歩を踏み出す。
我々は,大学院レベルの宿題と博士資格試験問題の代表的なセットを手作業で調達し,LLMの問題解決能力をテストする。
さらに,シミュレーション最適化問題と解答器のオープンソースライブラリであるSimOptを活用し,不確実性の下で実世界の意思決定を行うLLMの能力について検討する。
以上の結果から,現実の確率的モデリングパイプラインを確実に自動化するには,非自明な作業が依然として必要であることが示唆された。
これらの発見は、OR研究者を支援し、自動化を通じてORの現実的な影響を増幅するAIエージェントを構築する可能性を浮き彫りにしている。
関連論文リスト
- ModelingAgent: Bridging LLMs and Mathematical Modeling for Real-World Challenges [72.19809898215857]
ModelingBenchは、様々な領域にわたる数学モデリングの競争から、現実に着想を得たオープンエンドの問題を特徴付ける新しいベンチマークである。
これらのタスクには、自然言語を形式的な数学的定式化に翻訳し、適切なツールを適用し、構造化された防御可能なレポートを生成する必要がある。
ツール使用をコーディネートするマルチエージェントフレームワークである ModelingAgent も紹介します。
論文 参考訳(メタデータ) (2025-05-21T03:33:23Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - On the limits of agency in agent-based models [13.130587222524305]
エージェントベースモデリングは複雑なシステムに対する強力な洞察を提供するが、その実用性は計算の制約によって制限されている。
大規模言語モデル(LLM)の最近の進歩は、適応エージェントによるABMを強化する可能性があるが、大規模なシミュレーションへの統合は依然として困難である。
大規模シミュレーションにおいて,行動複雑性と計算効率のバランスをとる手法であるLSMアーチタイプを提案する。
論文 参考訳(メタデータ) (2024-09-14T04:17:24Z) - WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。
WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-07-07T07:15:49Z) - LLMs for Mathematical Modeling: Towards Bridging the Gap between Natural and Mathematical Languages [14.04286044600141]
大規模言語モデル (LLM) は様々な自然言語処理タスクにおいて高い性能を示している。
しかし、数学的推論の習熟度は依然として重要な課題である。
LLMの数学的モデル構築能力を評価するためのプロセス指向フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-21T18:29:54Z) - Solution-oriented Agent-based Models Generation with Verifier-assisted
Iterative In-context Learning [10.67134969207797]
エージェントベースのモデル(ABM)は、仮説的な解決策やポリシーの提案と検証に不可欠なパラダイムである。
大きな言語モデル(LLM)は、ドメイン間の知識とプログラミング能力をカプセル化することで、このプロセスの難しさを軽減できる可能性がある。
SAGEは、ターゲット問題に対する自動モデリングおよびソリューション生成のために設計された、汎用的なソリューション指向のABM生成フレームワークである。
論文 参考訳(メタデータ) (2024-02-04T07:59:06Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。