論文の概要: FrontierOR: Benchmarking LLMs' Capacity for Efficient Algorithm Design in Large-Scale Optimization
- arxiv url: http://arxiv.org/abs/2605.25246v2
- Date: Tue, 26 May 2026 13:18:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.092949
- Title: FrontierOR: Benchmarking LLMs' Capacity for Efficient Algorithm Design in Large-Scale Optimization
- Title(参考訳): Frontieror:大規模最適化における効率的なアルゴリズム設計のためのLLMの能力のベンチマーク
- Authors: Minwei Kong, Chonghe Jiang, Ao Qu, Wenbin Ouyang, Zhaoming Zeng, Xiaotong Guo, Zhekai Li, Junyi Li, Yi Fan, Xinshou Zheng, Xi Jing, Yikai Zhang, Zhiwei Liang, Seonghoo Kim, Runqing Yang, Zijian Zhou, Sirui Li, Han Zheng, Wangyang Ying, Ou Zheng, Chonghuan Wang, Jinglong Zhao, Hanzhang Qin, Cathy Wu, Paul Pu Liang, Jinhua Zhao, Hai Wang,
- Abstract要約: 大規模言語モデル(LLM)は、最適化モデリングとソルバコード生成にますます使われている。
既存のベンチマークは、実際のスケールと複雑さよりもはるかに低い、小さな、あるいは単純化された例に限られている。
現実的な大規模最適化問題に対して,LLMに基づく効率的なアルゴリズム設計を評価するための最初のベンチマークとしてFrontierORを紹介した。
- 参考スコア(独自算出の注目度): 61.43300970020897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly used for optimization modeling and solver-code generation, yet practical operations research and optimization problems often require a harder capability: designing scalable algorithms that exploit problem structure and outperform direct formulation-and-solve baselines. Existing benchmarks are limited to small or simplified examples far below real-world scale and complexity. We introduce FrontierOR, among the first benchmarks to systematically evaluate LLM-based efficient algorithm design for realistic large-scale optimization problems. FrontierOR includes 180 tasks derived from methodologically diverse papers published in top-tier operations research venues, each with standardized instances and a hidden, expert-verified evaluation suite. We evaluate seven LLMs spanning frontier, cost-effective, and open-source models both in one-shot and test-time evolution settings. The results reveal that frontier models still struggle to move from executable formulations to efficient optimization algorithms: the strongest one-shot model outperforms Gurobi in only 31% of cases in both solution quality and computational efficiency, and even strong coding agents with test-time evolution achieve only 50% on selected hard tasks. FrontierOR establishes a practical evaluation platform for LLM-based optimization algorithm design, which enables future LLMs and agents to be systematically tested on whether they can move beyond correct formulation toward a feasible, high-quality, and efficient algorithm.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最適化モデリングやソルバコード生成にますます使われていますが、実用的な操作の研究と最適化の問題は、しばしば難しい能力を必要とします。
既存のベンチマークは、実際のスケールと複雑さよりもはるかに低い、小さな、あるいは単純化された例に限られている。
現実的な大規模最適化問題に対して,LLMに基づく効率的なアルゴリズム設計を体系的に評価する最初のベンチマークとしてFrontierORを紹介した。
FrontierORには、トップレベルの運用研究会場で公開された方法論的に多様な論文から180のタスクが含まれており、それぞれが標準化されたインスタンスと、隠れた専門家による評価スイートを備えている。
我々は,フロンティア,コスト効率,オープンソースモデルにまたがる7つのLCMを,ワンショットおよびテストタイムの進化設定で評価した。
最強のワンショットモデルは、ソリューションの品質と計算効率の両方においてわずか31%でGurobiを上回り、テスト時間進化を伴う強力なコーディングエージェントでさえ、選択されたハードタスクで50%しか達成できない。
FrontierOR は LLM ベースの最適化アルゴリズム設計のための実用的な評価プラットフォームを確立しており、将来の LLM やエージェントが正しい定式化を超えて、実現可能で高品質で効率的なアルゴリズムに移行することができるかどうかを体系的にテストすることができる。
関連論文リスト
- From Heuristic Selection to Automated Algorithm Design: LLMs Benefit from Strong Priors [4.253872963674906]
大規模言語モデル(LLM)は、アルゴリズムの自動設計に広く採用されている。
高品質なアルゴリズムコード例を提供することで、LLM駆動最適化の性能を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2026-03-03T09:27:52Z) - OPT-Engine: Benchmarking the Limits of LLMs in Optimization Modeling via Complexity Scaling [13.57588221678224]
大規模言語モデル(LLM)は、最適化モデリングの驚くべき進歩を示している。
自動定式化と問題解決におけるそれらの能力の境界は、まだよく理解されていない。
OPT-ENGINEは、制御可能でスケーラブルな難易度を持つ最適化モデルにおいて、LCMを評価するために設計されたベンチマークフレームワークである。
論文 参考訳(メタデータ) (2026-01-09T09:22:33Z) - LLM4CMO: Large Language Model-aided Algorithm Design for Constrained Multiobjective Optimization [54.35609820607923]
大規模言語モデル(LLM)は、アルゴリズム設計を支援する新しい機会を提供する。
LLM4CMOは,2つの人口構成をもつ2段階のフレームワークをベースとした新しいCMOEAである。
LLMは複雑な進化最適化アルゴリズムの開発において効率的な共同設計者として機能する。
論文 参考訳(メタデータ) (2025-08-16T02:00:57Z) - STRCMP: Integrating Graph Structural Priors with Language Models for Combinatorial Optimization [18.162186876640764]
演算研究と理論計算機科学の中心となる組合せ最適化(CO)問題は、NPハードな性質のため、重要な計算課題を提示する。
本稿では,StRCMPを提案する。STRCMPは,構造先行を体系的に統合し,解の質と解解効率を向上する新しい構造対応アルゴリズム探索フレームワークである。
我々のフレームワークは、COインスタンスから構造埋め込みを抽出するグラフニューラルネットワーク(GNN)と、これらの埋め込みを条件としたLLMを組み合わせることで、ソルバ固有コードの形で高い性能のアルゴリズムを識別する。
論文 参考訳(メタデータ) (2025-05-22T15:37:42Z) - EVOLvE: Evaluating and Optimizing LLMs For In-Context Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - How Efficient is LLM-Generated Code? A Rigorous & High-Standard Benchmark [39.13045037676502]
大規模言語モデル(LLM)の開発は、プログラム合成のフロンティアを著しく押し上げている。
ほとんどの評価フレームワークは生成したコードの(機能的な)正しさに重点を置いています。
我々は,LLMの効率的なコード生成能力を評価するための厳格で高水準なベンチマークENAMELを開発した。
論文 参考訳(メタデータ) (2024-06-10T04:19:20Z) - Learning to Optimize: A Primer and A Benchmark [94.29436694770953]
最適化への学習(L2O)は、機械学習を活用して最適化方法を開発する新しいアプローチです。
この記事では、継続的最適化のためのL2Oの総合的な調査とベンチマークを行う。
論文 参考訳(メタデータ) (2021-03-23T20:46:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。