論文の概要: ORGEval: Graph-Theoretic Evaluation of LLMs in Optimization Modeling
- arxiv url: http://arxiv.org/abs/2510.27610v1
- Date: Fri, 31 Oct 2025 16:35:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.16774
- Title: ORGEval: Graph-Theoretic Evaluation of LLMs in Optimization Modeling
- Title(参考訳): ORGEval:最適化モデリングにおけるLLMのグラフ理論評価
- Authors: Zhuohan Wang, Ziwei Zhu, Ziniu Li, Congliang Chen, Yizhou Han, Yufeng Lin, Zhihang Lin, Angyang Gu, Xinglin Hu, Ruoyu Sun, Tian Ding,
- Abstract要約: ORGEvalは線形および混合整数線形プログラムの定式化における大規模言語モデルの能力を評価するためのグラフ理論評価フレームワークである。
ORGEvalはモデル等価性の検出に成功し、ランダムなパラメータ構成で100%一貫した結果が得られることを示す。
この結果から,全てのLLMにおいて最適化モデリングは依然として困難であるが,DeepSeek-V3とClaude-Opus-4は直接的プロンプト下では最高の精度を達成できることがわかった。
- 参考スコア(独自算出の注目度): 18.8099769877788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Formulating optimization problems for industrial applications demands significant manual effort and domain expertise. While Large Language Models (LLMs) show promise in automating this process, evaluating their performance remains difficult due to the absence of robust metrics. Existing solver-based approaches often face inconsistency, infeasibility issues, and high computational costs. To address these issues, we propose ORGEval, a graph-theoretic evaluation framework for assessing LLMs' capabilities in formulating linear and mixed-integer linear programs. ORGEval represents optimization models as graphs, reducing equivalence detection to graph isomorphism testing. We identify and prove a sufficient condition, when the tested graphs are symmetric decomposable (SD), under which the Weisfeiler-Lehman (WL) test is guaranteed to correctly detect isomorphism. Building on this, ORGEval integrates a tailored variant of the WL-test with an SD detection algorithm to evaluate model equivalence. By focusing on structural equivalence rather than instance-level configurations, ORGEval is robust to numerical variations. Experimental results show that our method can successfully detect model equivalence and produce 100\% consistent results across random parameter configurations, while significantly outperforming solver-based methods in runtime, especially on difficult problems. Leveraging ORGEval, we construct the Bench4Opt dataset and benchmark state-of-the-art LLMs on optimization modeling. Our results reveal that although optimization modeling remains challenging for all LLMs, DeepSeek-V3 and Claude-Opus-4 achieve the highest accuracies under direct prompting, outperforming even leading reasoning models.
- Abstract(参考訳): 産業用アプリケーションのフォーマッティング最適化問題は、重要な手作業とドメインの専門知識を必要とする。
LLM(Large Language Models)は、このプロセスを自動化することを約束しているが、ロバストなメトリクスがないため、そのパフォーマンスを評価することは難しい。
既存のソルバベースのアプローチは、しばしば不整合、不実現可能性の問題、高い計算コストに直面している。
これらの問題に対処するために,線形および混合整数線形プログラムを定式化する際に,LLMの能力を評価するグラフ理論評価フレームワークORGEvalを提案する。
ORGEvalは最適化モデルをグラフとして表現し、同値検出をグラフ同型テストに還元する。
テストグラフが対称分解可能であるとき、Weisfeiler-Lehman (WL) テストで同型を正しく検出することが保証される十分条件を特定し、証明する。
これに基づいてORGEvalは、WLテストの修正版とSD検出アルゴリズムを統合し、モデル等価性を評価する。
インスタンスレベルの構成よりも構造的等価性に注目して、ORGEvalは数値的な変動に対して堅牢である。
実験結果から,提案手法はモデル等価性の検出に成功し,確率パラメータ構成における100 % の一貫性が得られた。
ORGEvalを活用することで、Bench4Optデータセットを構築し、最適化モデルに基づく最先端LLMのベンチマークを行う。
この結果から,全てのLLMにおいて最適化モデリングは依然として困難であるが,Claude-Opus-4とDeepSeek-V3は直接的プロンプトの下で最高の精度を達成し,先行する推論モデルよりも優れることがわかった。
関連論文リスト
- Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - OptMATH: A Scalable Bidirectional Data Synthesis Framework for Optimization Modeling [9.617742955894247]
高品質な最適化モデリングデータセットの欠如は、大きな言語モデルを悩ませます。
本稿では,OptMATHという高品質なデータセットを合成するためのスケーラブルなフレームワークを提案する。
我々は,OptMATHでトレーニングした様々なサイズのモデルが,複数のモデリングベンチマークにおいて優れた結果が得られることを実証した。
論文 参考訳(メタデータ) (2025-02-16T12:38:37Z) - A Gradient Analysis Framework for Rewarding Good and Penalizing Bad Examples in Language Models [63.949883238901414]
本稿では,損失関数の勾配解析の特異な角度について述べる。
ExMATEはMLEの優れたサロゲートであり,DPOとMLEの代わりにExMATEを組み合わせることで,統計的(5-7%)と生成的(+18%)の性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-29T17:46:18Z) - Estimate-Then-Optimize versus Integrated-Estimation-Optimization versus Sample Average Approximation: A Stochastic Dominance Perspective [21.945745750737952]
モデルクラスが十分に特定され、十分なデータが存在する場合に、逆の振る舞いが現れることを示す。
また, 標準サンプル平均近似 (SAA) が, 後悔の点において, モデルクラスが適切に特定された場合に, 最悪の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2023-04-13T21:54:53Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z) - Automatically Learning Compact Quality-aware Surrogates for Optimization
Problems [55.94450542785096]
未知パラメータで最適化問題を解くには、未知パラメータの値を予測し、これらの値を用いて問題を解くための予測モデルを学ぶ必要がある。
最近の研究によると、複雑なトレーニングモデルパイプラインのレイヤーとして最適化の問題を含めると、観測されていない意思決定の繰り返しを予測することになる。
我々は,大規模最適化問題の低次元サロゲートモデルを学習することにより,解の質を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-06-18T19:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。