論文の概要: ConstraintBench: Benchmarking LLM Constraint Reasoning on Direct Optimization
- arxiv url: http://arxiv.org/abs/2602.22465v1
- Date: Wed, 25 Feb 2026 22:54:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.440452
- Title: ConstraintBench: Benchmarking LLM Constraint Reasoning on Direct Optimization
- Title(参考訳): ConstraintBench: 直接最適化に基づく LLM Constraint Reasoning ベンチマーク
- Authors: Joseph Tso, Preston Schmittou, Quan Huynh, Jibran Hutchins,
- Abstract要約: ConstraintBenchは、直接制約付き最適化において、大きな言語モデルを評価するためのベンチマークである。
200のタスクで6つのフロンティアモデルを評価し、最適性ではなく実現可能性が主要なボトルネックであることを確認した。
解法基準の0.1%の範囲内で、結合実現可能性と最適性について30.5%を超えるモデルはない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly applied to operational decision-making where the underlying structure is constrained optimization. Existing benchmarks evaluate whether LLMs can formulate optimization problems as solver code, but leave open a complementary question. Can LLMs directly produce correct solutions to fully specified constrained optimization problems without access to a solver? We introduce ConstraintBench, a benchmark for evaluating LLMs on direct constrained optimization across 10 operations research domains, with all ground-truth solutions verified by the Gurobi solver. Each task presents a natural-language scenario with entities, constraints, and an optimization objective; the model must return a structured solution that a deterministic verifier checks against every constraint and the solver-proven optimum. We evaluate six frontier models on 200 tasks and find that feasibility, not optimality, is the primary bottleneck. The best model achieves only 65.0% constraint satisfaction, yet feasible solutions average 89 to 96% of the Gurobi-optimal objective. No model exceeds 30.5% on joint feasibility and optimality within 0.1% of the solver reference. Per-domain analysis shows large variation in difficulty, with average feasibility spanning from 83.3% in the production mix domain to 0.8% in the crew assignment domain. Further, systematic failure modes include duration constraint misunderstanding, entity hallucination, and a feasibility-optimality decoupling in facility location and vehicle routing where models achieve high feasibility but 0% optimality. ConstraintBench and all evaluation infrastructure will be publicly released.
- Abstract(参考訳): 大きな言語モデルは、基盤となる構造が制約付き最適化である運用上の意思決定にますます適用されています。
既存のベンチマークでは、LLMが最適化問題をソルバコードとして定式化できるかどうかが評価されているが、相補的な疑問は残る。
LLMは、解決者にアクセスすることなく、完全に規定された制約付き最適化問題に対する正しい解を直接生成できるのか?
提案手法は,Gurobiソルバによって検証されたすべての接地トラバス解を用いて,10の演算領域にまたがる直接制約付き最適化のLLMを評価するためのベンチマークである。
各タスクは、エンティティ、制約、最適化目標を備えた自然言語シナリオを提示する。モデルは、決定論的検証器がすべての制約と解法証明の最適値に対してチェックする構造化されたソリューションを返す必要がある。
200のタスクで6つのフロンティアモデルを評価し、最適性ではなく実現可能性が主要なボトルネックであることを確認した。
最適モデルは65.0%の制約満足度しか達成しないが、実現可能な解はグロビ最適目標の89~96%である。
解法基準の0.1%の範囲内で、結合実現可能性と最適性について30.5%を超えるモデルはない。
ドメインごとの分析では、生産用ミキシングドメインの83.3%から乗組員割り当てドメインの0.8%まで、難易度が大きく変化している。
さらに、系統的障害モードには、持続的制約誤解、エンティティ幻覚、施設位置と車両ルーティングにおける実現可能性-最適分離が含まれ、モデルが高い実現性を実現するが、最適度は0%である。
ConstraintBenchとすべての評価インフラストラクチャが公開される。
関連論文リスト
- Hard Constraints Meet Soft Generation: Guaranteed Feasibility for LLM-based Combinatorial Optimization [14.17648636921649]
3つの重要なイノベーションを通じて100%実現可能なフレームワークであるFALCONを紹介します。
FALCONは、最先端のニューラルおよびLLMベースの解決器のソリューション品質をマッチングまたは超過しながら、完全な実現性を達成する。
論文 参考訳(メタデータ) (2026-02-01T08:09:06Z) - Peering Inside the Black Box: Uncovering LLM Errors in Optimization Modelling through Component-Level Evaluation [0.0]
大規模言語モデル(LLM)のためのコンポーネントレベル評価フレームワークを提案する。
GPT-5、LLaMA 3.1命令、DeepSeek Mathを様々な複雑さの最適化問題で評価する。
その結果、GPT-5は他のモデルよりも一貫して優れており、チェーン・オブ・シンク、自己整合性、モジュール性がより効果的であることを証明している。
論文 参考訳(メタデータ) (2025-10-19T17:47:59Z) - Feasibility-Driven Trust Region Bayesian Optimization [0.048748194765816946]
FuRBOは、次の候補解が選択される信頼領域を反復的に定義する。
我々は,フルBBOB制約ベンチマークスイートの広範なテストを通じて,FuRBOの有効性を実証的に実証した。
論文 参考訳(メタデータ) (2025-06-17T15:16:22Z) - MOSIC: Model-Agnostic Optimal Subgroup Identification with Multi-Constraint for Improved Reliability [11.997050225896679]
そこで本研究では,最適部分群を同定するために,初期制約付き最適化問題を直接解決する統一最適化フレームワークを提案する。
我々の鍵となる革新は、勾配降下勾配アルゴリズムによって解決された、制約のない微分可能な min-max の目的として、制約された原始問題の再構成である。
このフレームワークは、モデルに依存しず、幅広いCATE推定器と互換性があり、コスト制限や公正性基準のような追加の制約への適合性がある。
論文 参考訳(メタデータ) (2025-04-29T16:25:23Z) - OptiBench Meets ReSocratic: Measure and Improve LLMs for Optimization Modeling [62.19438812624467]
大規模言語モデル (LLM) は数学的推論における問題解決能力を示した。
本稿では,人間可読入力と出力を用いたエンドツーエンド最適化問題のベンチマークであるOptiBenchを提案する。
論文 参考訳(メタデータ) (2024-07-13T13:27:57Z) - Learning Proximal Operators to Discover Multiple Optima [66.98045013486794]
非家族問題における近位演算子を学習するためのエンドツーエンド手法を提案する。
本手法は,弱い目的と穏やかな条件下では,世界規模で収束することを示す。
論文 参考訳(メタデータ) (2022-01-28T05:53:28Z) - Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。
このアプローチは多くの実装と最適化の課題をもたらします。
提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文 参考訳(メタデータ) (2021-03-18T14:26:26Z) - Extracting Optimal Solution Manifolds using Constrained Neural
Optimization [6.800113407368289]
制約付き最適化解アルゴリズムは点ベース解に制限される。
最適集合を近似として抽出する手法を提案する。
論文 参考訳(メタデータ) (2020-09-13T15:37:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。