論文の概要: OPT-Engine: Benchmarking the Limits of LLMs in Optimization Modeling via Complexity Scaling
- arxiv url: http://arxiv.org/abs/2601.19924v1
- Date: Fri, 09 Jan 2026 09:22:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 02:21:38.544204
- Title: OPT-Engine: Benchmarking the Limits of LLMs in Optimization Modeling via Complexity Scaling
- Title(参考訳): OPT-Engine:複雑性スケーリングによる最適化モデリングにおけるLLMの限界のベンチマーク
- Authors: Yitian Chen, Cheng Cheng, Yinan Sun, Zi Ling, Dongdong Ge,
- Abstract要約: 大規模言語モデル(LLM)は、最適化モデリングの驚くべき進歩を示している。
自動定式化と問題解決におけるそれらの能力の境界は、まだよく理解されていない。
OPT-ENGINEは、制御可能でスケーラブルな難易度を持つ最適化モデルにおいて、LCMを評価するために設計されたベンチマークフレームワークである。
- 参考スコア(独自算出の注目度): 13.57588221678224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated impressive progress in optimization modeling, fostering a rapid expansion of new methodologies and evaluation benchmarks. However, the boundaries of their capabilities in automated formulation and problem solving remain poorly understood, particularly when extending to complex, real-world tasks. To bridge this gap, we propose OPT-ENGINE, an extensible benchmark framework designed to evaluate LLMs on optimization modeling with controllable and scalable difficulty levels. OPT-ENGINE spans 10 canonical tasks across operations research, with five Linear Programming and five Mixed-Integer Programming. Utilizing OPT-ENGINE, we conduct an extensive study of LLMs' reasoning capabilities, addressing two critical questions: 1.) Do LLMs' performance remain robust when generalizing to out-of-distribution optimization tasks that scale in complexity beyond current benchmark levels? and 2.) At what stage, from problem interpretation to solution generation, do current LLMs encounter the most significant bottlenecks? Our empirical results yield two key insights: first, tool-integrated reasoning with external solvers exhibits significantly higher robustness as task complexity escalates, while pure-text reasoning reaches a ceiling; second, the automated formulation of constraints constitutes the primary performance bottleneck. These findings provide actionable guidance for developing next-generation LLMs for advanced optimization. Our code is publicly available at \textcolor{blue}{https://github.com/Cardinal-Operations/OPTEngine}.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最適化モデリングの目覚ましい進歩を示し、新しい方法論と評価ベンチマークの急速な拡張を促している。
しかしながら、自動定式化や問題解決におけるそれらの能力の境界は、特に複雑な実世界のタスクに拡張する場合によく理解されていない。
このギャップを埋めるために,制御可能かつスケーラブルな難易度を持つ最適化モデル上で,LLMを評価するための拡張性ベンチマークフレームワークであるOPT-ENGINEを提案する。
OPT-ENGINEはオペレーションリサーチ全体で10の標準タスクにまたがっており、5つの線形プログラミング、5つの混合整数プログラミングがある。
OPT-ENGINEを利用することで、LLMの推論能力に関する広範な研究を行い、2つの重要な疑問に対処する。
1. LLMsのパフォーマンスは、現在のベンチマークレベルを超えて複雑さを拡大する分配外最適化タスクに一般化する場合は、引き続き堅牢なままか?
そして
2)問題解釈からソリューション生成までのどの段階で、現在のLCMは最も重大なボトルネックに直面するのか?
第1に、ツール統合推論と外部解法は、タスクの複雑さがエスカレートし、純粋なテキスト推論が天井に達するにつれて、はるかに高いロバスト性を示し、第2に、制約の自動定式化が主要なパフォーマンスボトルネックとなる。
これらの知見は,高度な最適化のための次世代LLMの開発のための実用的なガイダンスを提供する。
私たちのコードは、textcolor{blue}{https://github.com/Cardinal-Operations/OPTEngine}で公開されています。
関連論文リスト
- MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization [103.74675519953898]
ロングチェーンのリフレクティブ推論は、複雑な現実世界の問題を解決するための前提条件である。
我々は42の難解な合成タスクの1,260のサンプルからなるベンチマークを構築した。
トレーニング後のデータを生成し、そのようなデータを活用するための学習パラダイムを探索する。
論文 参考訳(メタデータ) (2025-10-09T17:53:58Z) - A Systematic Survey on Large Language Models for Evolutionary Optimization: From Modeling to Solving [26.501685261132124]
大規模言語モデル(LLM)は、最適化問題に対処するためにますます研究されている。
急速な進歩にもかかわらず、この分野は依然として統一的な合成と体系的な分類を欠いている。
この調査は、最近の開発を包括的にレビューし、構造化されたフレームワーク内でそれらを整理することで、このギャップに対処する。
論文 参考訳(メタデータ) (2025-09-10T04:05:54Z) - LLM4CMO: Large Language Model-aided Algorithm Design for Constrained Multiobjective Optimization [54.35609820607923]
大規模言語モデル(LLM)は、アルゴリズム設計を支援する新しい機会を提供する。
LLM4CMOは,2つの人口構成をもつ2段階のフレームワークをベースとした新しいCMOEAである。
LLMは複雑な進化最適化アルゴリズムの開発において効率的な共同設計者として機能する。
論文 参考訳(メタデータ) (2025-08-16T02:00:57Z) - OPT-BENCH: Evaluating LLM Agent on Large-Scale Search Spaces Optimization Problems [19.586884180343038]
OPT-BENCHは、大規模検索空間最適化問題において、LLM(Large Language Models)を評価するために設計されたベンチマークである。
OPT-Agentは、歴史的フィードバックを通じてソリューションの生成、検証、反復的に改善することで、複雑な問題に取り組む際の人間の推論をエミュレートする。
論文 参考訳(メタデータ) (2025-06-12T14:46:41Z) - EIFBENCH: Extremely Complex Instruction Following Benchmark for Large Language Models [64.70546873396624]
大規模言語モデル(LLM)を評価するためのEIFBENCH(Extremely Complex Instruction following Benchmark)を提案する。
EIFBENCHにはマルチタスクシナリオが含まれており、多様なタスクタイプを同時に総合的に評価することができる。
また,LLMのマルチタスクワークフローを正確に満たす能力を高めるために,セグメントポリシー最適化(SegPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-10T02:39:55Z) - Can Reasoning Models Reason about Hardware? An Agentic HLS Perspective [18.791753740931185]
OpenAI o3-mini と DeepSeek-R1 は Chain-of-Thought (CoT) を通じて推論を強化している
本稿では, LLM の推論が高レベル合成(HLS)設計空間探索と最適化の課題に対処できるかどうかを検討する。
論文 参考訳(メタデータ) (2025-03-17T01:21:39Z) - OR-LLM-Agent: Automating Modeling and Solving of Operations Research Optimization Problems with Reasoning LLM [15.260794368585692]
自動オペレーションリサーチ問題解決のためのLLMを推論するAIエージェントフレームワークであるOR-LLM-Agentを提案する。
GPT-o3, Gemini 2.5 Pro, DeepSeek-R1, ORLMなどの高度な手法よりも, OR-LLM-Agentの精度を7%以上向上させることを示す。
論文 参考訳(メタデータ) (2025-03-13T03:40:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。