論文の概要: Peering Inside the Black Box: Uncovering LLM Errors in Optimization Modelling through Component-Level Evaluation
- arxiv url: http://arxiv.org/abs/2510.16943v1
- Date: Sun, 19 Oct 2025 17:47:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.217521
- Title: Peering Inside the Black Box: Uncovering LLM Errors in Optimization Modelling through Component-Level Evaluation
- Title(参考訳): ブラックボックス内部のペアリング:コンポーネントレベル評価による最適化モデルにおけるLLMエラーの発見
- Authors: Dania Refai, Moataz Ahmed,
- Abstract要約: 大規模言語モデル(LLM)のためのコンポーネントレベル評価フレームワークを提案する。
GPT-5、LLaMA 3.1命令、DeepSeek Mathを様々な複雑さの最適化問題で評価する。
その結果、GPT-5は他のモデルよりも一貫して優れており、チェーン・オブ・シンク、自己整合性、モジュール性がより効果的であることを証明している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly used to convert natural language descriptions into mathematical optimization formulations. Current evaluations often treat formulations as a whole, relying on coarse metrics like solution accuracy or runtime, which obscure structural or numerical errors. In this study, we present a comprehensive, component-level evaluation framework for LLM-generated formulations. Beyond the conventional optimality gap, our framework introduces metrics such as precision and recall for decision variables and constraints, constraint and objective root mean squared error (RMSE), and efficiency indicators based on token usage and latency. We evaluate GPT-5, LLaMA 3.1 Instruct, and DeepSeek Math across optimization problems of varying complexity under six prompting strategies. Results show that GPT-5 consistently outperforms other models, with chain-of-thought, self-consistency, and modular prompting proving most effective. Analysis indicates that solver performance depends primarily on high constraint recall and low constraint RMSE, which together ensure structural correctness and solution reliability. Constraint precision and decision variable metrics play secondary roles, while concise outputs enhance computational efficiency. These findings highlight three principles for NLP-to-optimization modeling: (i) Complete constraint coverage prevents violations, (ii) minimizing constraint RMSE ensures solver-level accuracy, and (iii) concise outputs improve computational efficiency. The proposed framework establishes a foundation for fine-grained, diagnostic evaluation of LLMs in optimization modeling.
- Abstract(参考訳): 大規模言語モデル (LLM) は、自然言語記述を数学的最適化の定式化に変換するためにますます使われている。
現在の評価はしばしば定式化を全体として扱い、解の精度や実行時の不明瞭な構造的あるいは数値的な誤りのような粗いメトリクスに依存している。
本研究では, LLM 生成定式化のための包括的, コンポーネントレベルの評価フレームワークを提案する。
従来の最適性ギャップ以外にも、決定変数と制約の精度とリコール、制約と目的のルート平均二乗誤差(RMSE)、トークンの使用率と遅延に基づく効率指標などの指標を導入している。
GPT-5, LLaMA 3.1 Instruct, and DeepSeek Math across optimization problem of various complexity under six prompting strategy。
その結果、GPT-5は他のモデルよりも一貫して優れており、チェーン・オブ・シンク、自己整合性、モジュラー・プロンプトが最も効果的であることが示された。
解析によると、解法の性能は、構造的正しさと解の信頼性を確保するために、主に高い制約リコールと低い制約RMSEに依存する。
制約精度と決定変数のメトリクスは二次的な役割を担い、簡潔な出力は計算効率を高める。
これらの結果は、NLP-to-optimization Modelingの3つの原則を浮き彫りにした。
一 完全拘束範囲が違反を防止すること。
(II)制約RMSEの最小化はソルバレベルの精度を確保し、
三 簡潔な出力により、計算効率が向上する。
提案するフレームワークは,最適化モデルにおけるLCMの細粒度, 診断的評価の基礎を確立する。
関連論文リスト
- Can LLMs Correct Themselves? A Benchmark of Self-Correction in LLMs [57.10533368622962]
大規模言語モデル(LLM)の自己補正は、推論性能を高める重要な要素として現れる。
本研究では,自己補正戦略の有効性を評価するためのベンチマークであるCorrectBenchを紹介する。
その結果,1) 自己補正手法は, 複雑な推論タスクにおいて, 精度を向上させることが可能であり, 2) 異なる自己補正戦略の混合により, 効率は低下するものの, さらなる改善がもたらされることが明らかとなった。
論文 参考訳(メタデータ) (2025-10-17T02:40:19Z) - Automated Optimization Modeling through Expert-Guided Large Language Model Reasoning [43.63419208391747]
本稿では,最適化プロセスを自動化するチェーン・オブ・シント推論を通じて,専門家レベルの最適化モデリングの原則を活用する新しいフレームワークを提案する。
また、ロジスティクス領域からの新しい最適化モデリングベンチマークであるLogiORを導入し、標準化されたアノテーションに関するより複雑な問題を含む。
論文 参考訳(メタデータ) (2025-08-20T04:14:54Z) - From Natural Language to Solver-Ready Power System Optimization: An LLM-Assisted, Validation-in-the-Loop Framework [1.7136832159667206]
本稿では,Large Language Models (LLMs) を用いたエージェントを導入し,電力系統最適化シナリオの自然言語記述を,コンパクトで解決可能な定式化に自動変換する。
提案手法は,オフザシェルフ最適化解法により効率よく解ける数学的に互換性のある定式化の発見に重点を置いている。
論文 参考訳(メタデータ) (2025-08-11T16:22:57Z) - LIMOPro: Reasoning Refinement for Efficient and Effective Test-time Scaling [39.61818305829112]
PIR(Perplexity-based Importance Refinement)は,各推論ステップの重要性を定量的に評価するフレームワークである。
PIRは、プログレッシブ推論コンポーネントを保持しながら、低重要機能ステップのみを特定し、選択的にプーンする。
我々のアプローチは、異なるモデルサイズ、データソース、トークン予算にまたがる強力な一般化可能性を示す。
論文 参考訳(メタデータ) (2025-05-25T15:17:57Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - Autoformulation of Mathematical Optimization Models Using LLMs [50.030647274271516]
本稿では,自然言語問題記述から解法対応最適化モデルを自動生成する,$textitautoformulation$の問題にアプローチする。
オートフォーミュレーションの3つの主要な課題を識別する: $textit(1)$ 巨大で問題に依存した仮説空間、および$textit(2)$ 不確実性の下でこの空間を効率的かつ多様に探索する。
我々は,$textitLarge Language Models$と$textitMonte-Carlo Tree Search$を併用した新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-03T20:41:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。