論文の概要: Constructing Industrial-Scale Optimization Modeling Benchmark
- arxiv url: http://arxiv.org/abs/2602.10450v1
- Date: Wed, 11 Feb 2026 02:45:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.403269
- Title: Constructing Industrial-Scale Optimization Modeling Benchmark
- Title(参考訳): 産業規模最適化モデリングベンチマークの構築
- Authors: Zhong Li, Hongliang Lu, Tao Wei, Wenyu Liu, Yuxuan Chen, Yuan Lan, Fan Zhang, Zaiwen Wen,
- Abstract要約: 重要なボトルネックは、実際の最適化モデルに根ざした、自然言語仕様と参照定式化/解決コードとを一致させるベンチマークの欠如である。
実混合整数線形プログラムから構造を意識した逆構成手法により構築したMIPLIB-NLを提案する。
実験の結果,MIPLIB-NLは既存のベンチマークに強く依存するシステムに対して,大幅な性能低下を示した。
- 参考スコア(独自算出の注目度): 26.61380804019141
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Optimization modeling underpins decision-making in logistics, manufacturing, energy, and finance, yet translating natural-language requirements into correct optimization formulations and solver-executable code remains labor-intensive. Although large language models (LLMs) have been explored for this task, evaluation is still dominated by toy-sized or synthetic benchmarks, masking the difficulty of industrial problems with $10^{3}$--$10^{6}$ (or more) variables and constraints. A key bottleneck is the lack of benchmarks that align natural-language specifications with reference formulations/solver code grounded in real optimization models. To fill in this gap, we introduce MIPLIB-NL, built via a structure-aware reverse construction methodology from real mixed-integer linear programs in MIPLIB~2017. Our pipeline (i) recovers compact, reusable model structure from flat solver formulations, (ii) reverse-generates natural-language specifications explicitly tied to this recovered structure under a unified model--data separation format, and (iii) performs iterative semantic validation through expert review and human--LLM interaction with independent reconstruction checks. This yields 223 one-to-one reconstructions that preserve the mathematical content of the original instances while enabling realistic natural-language-to-optimization evaluation. Experiments show substantial performance degradation on MIPLIB-NL for systems that perform strongly on existing benchmarks, exposing failure modes invisible at toy scale.
- Abstract(参考訳): 最適化モデリングは、物流、製造、エネルギー、ファイナンスにおける意思決定の基盤となっているが、自然言語要求を正しい最適化定式化とソルバ実行可能なコードに変換することは労働集約的である。
大規模言語モデル (LLMs) はこの作業のために検討されてきたが、評価はいまだに玩具サイズのベンチマークや合成ベンチマークによって支配されており、産業問題の難しさを10^{3}$--$10^{6}$(またはそれ以上)変数と制約で隠蔽している。
重要なボトルネックは、実際の最適化モデルに根ざした、自然言語仕様と参照定式化/解決のコードとを一致させるベンチマークの欠如である。
このギャップを埋めるために、MPLIB〜2017において、実混合整数線形プログラムから構造を意識した逆構築手法を用いて構築されたMIPLIB-NLを導入する。
パイプライン
i) 平坦な解法式からコンパクトで再利用可能なモデル構造を復元する。
(ii) 統一されたモデル-データ分離フォーマットの下で、この回復された構造に明示的に結びついている自然言語仕様を逆生成する。
(iii) 専門家レビューによる反復的意味検証と, 独立再構築チェックとの人間-LLMインタラクションを行う。
これにより、223個の1対1で元のインスタンスの数学的内容を保存することができ、現実的な自然言語の最適化評価を可能にしている。
MIPLIB-NLは既存のベンチマークで強く動作し、おもちゃのスケールで見えない障害モードを露呈する。
関連論文リスト
- Structure-Aware Robust Counterfactual Explanations via Conditional Gaussian Network Classifiers [0.26999000177990923]
本研究は,条件付き条件グラフに基づく構造認識型ロバストネス・ウンタファクト探索手法を提案する。
結果から,本手法は,特に安定な依存関係を提供する元の定式化を直接最適化することにより,強い整合性を実現することが示された。
提案手法は,非循環的制約下での非実効的推論における今後の進歩の基盤となる。
論文 参考訳(メタデータ) (2026-02-08T15:51:45Z) - ORGEval: Graph-Theoretic Evaluation of LLMs in Optimization Modeling [18.8099769877788]
ORGEvalは線形および混合整数線形プログラムの定式化における大規模言語モデルの能力を評価するためのグラフ理論評価フレームワークである。
ORGEvalはモデル等価性の検出に成功し、ランダムなパラメータ構成で100%一貫した結果が得られることを示す。
この結果から,全てのLLMにおいて最適化モデリングは依然として困難であるが,DeepSeek-V3とClaude-Opus-4は直接的プロンプト下では最高の精度を達成できることがわかった。
論文 参考訳(メタデータ) (2025-10-31T16:35:52Z) - Benchmarking Generative AI Against Bayesian Optimization for Constrained Multi-Objective Inverse Design [0.15293427903448018]
本稿では,制約付き多目的回帰タスクを解くための生成可能な言語モデル(LLM)の性能について検討する。
最高の性能のLDM(Math-7B)は1.21の世代距離(GD)を達成した。
この知見は, 樹脂, レオロジー, 化学特性の定式化設計の最適化に, 直接工業的応用が期待できる。
論文 参考訳(メタデータ) (2025-10-29T10:37:09Z) - Peering Inside the Black Box: Uncovering LLM Errors in Optimization Modelling through Component-Level Evaluation [0.0]
大規模言語モデル(LLM)のためのコンポーネントレベル評価フレームワークを提案する。
GPT-5、LLaMA 3.1命令、DeepSeek Mathを様々な複雑さの最適化問題で評価する。
その結果、GPT-5は他のモデルよりも一貫して優れており、チェーン・オブ・シンク、自己整合性、モジュール性がより効果的であることを証明している。
論文 参考訳(メタデータ) (2025-10-19T17:47:59Z) - Autoformalizer with Tool Feedback [52.334957386319864]
自動形式化は、数学的問題を自然言語から形式的ステートメントに変換することによって、ATP(Automated Theorem Proving)のデータ不足に対処する。
既存のフォーミュラライザは、構文的妥当性とセマンティック一貫性を満たす有効なステートメントを一貫して生成することに苦慮している。
本稿では,ツールフィードバックを用いたオートフォーマライザ (ATF) を提案する。
論文 参考訳(メタデータ) (2025-10-08T10:25:12Z) - Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments [70.42705564227548]
大規模言語モデル(LLM)のための環境自動構築パイプラインを提案する。
これにより、外部ツールに頼ることなく、詳細な測定可能なフィードバックを提供する高品質なトレーニング環境の作成が可能になる。
また、ツール使用の精度とタスク実行の完全性の両方を評価する検証可能な報酬機構も導入する。
論文 参考訳(メタデータ) (2025-08-12T09:45:19Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Autoformulation of Mathematical Optimization Models Using LLMs [50.030647274271516]
本稿では,自然言語問題記述から解法対応最適化モデルを自動生成する,$textitautoformulation$の問題にアプローチする。
オートフォーミュレーションの3つの主要な課題を識別する: $textit(1)$ 巨大で問題に依存した仮説空間、および$textit(2)$ 不確実性の下でこの空間を効率的かつ多様に探索する。
我々は,$textitLarge Language Models$と$textitMonte-Carlo Tree Search$を併用した新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-03T20:41:38Z) - Symbolic Regression by Exhaustive Search: Reducing the Search Space
Using Syntactical Constraints and Efficient Semantic Structure Deduplication [2.055204980188575]
シンボリック回帰は、モデル構造に関する事前の知識が得られない産業シナリオにおいて、強力なシステム識別技術である。
この章では、これらの問題に対処するために特別に設計された決定論的シンボリック回帰アルゴリズムを紹介します。
全ての可能なモデルの有限列挙は、構造的制約と意味論的に等価な解を検出するキャッシング機構によって保証される。
論文 参考訳(メタデータ) (2021-09-28T17:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。