論文の概要: TriVAL: A Tri-Validation Framework for Faithful Automatic Optimization Modeling
- arxiv url: http://arxiv.org/abs/2605.23966v1
- Date: Tue, 12 May 2026 23:13:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 02:55:42.984388
- Title: TriVAL: A Tri-Validation Framework for Faithful Automatic Optimization Modeling
- Title(参考訳): TriVAL: 忠実な自動最適化モデリングのためのトライバリデーションフレームワーク
- Authors: Ziyang Fang, JinXi Wang, Jinghui Zhong, Yew-Soon Ong,
- Abstract要約: 自動最適化モデリングの3段階において明示的な検証を行うフレームワークであるTriVALを紹介する。
各ステージでは、TriVALはコンストラクト-バリデート-リビジョンループに従って、現在の結果をステージ固有の基準で評価し、必要に応じて修正する。
実験の結果、TriVALは最先端の手法よりも一貫して優れており、最も難しい問題に対して最大の利益があることがわかった。
- 参考スコア(独自算出の注目度): 33.79669366850101
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimization modeling serves as the pivotal bridge between natural-language problem descriptions and optimization solvers, and remains a cornerstone for bringing operations research (OR) into real-world decision making. Recent advances in large language models (LLMs) have driven significant progress in automatic optimization modeling. However, existing methods still lack explicit validation during the modeling process, allowing errors introduced in earlier stages to carry through the pipeline and ultimately reduce final modeling accuracy. To address this challenge, we introduce TriVAL, a tri-validation framework that performs explicit validation at three stages of automatic optimization modeling: semantic specification, mathematical formulation, and code generation. At each stage, TriVAL follows a construct-validate-revise loop that assesses the current result against stage-specific criteria and revises it when needed. This design helps identify and correct errors before they accumulate across stages, helping preserve faithfulness throughout the modeling process. To evaluate automatic optimization modeling on more challenging combinatorial problems, we further introduce NL4COP, a benchmark of 150 instances across 50 diverse problem types with more complex decision logic, more tightly coupled constraints, and more demanding modeling requirements than existing benchmarks. Experiments on NL4COP and established benchmarks show that TriVAL consistently outperforms state-ofthe-art methods, with the largest gains on the most challenging problems.
- Abstract(参考訳): 最適化モデリングは、自然言語問題記述と最適化解法の間の重要な橋渡しとして機能し、実世界の意思決定にオペレーティングリサーチ(OR)を組み込むための基盤となっている。
大規模言語モデル(LLM)の最近の進歩は、自動最適化モデリングにおいて大きな進歩をもたらした。
しかし、既存のメソッドはモデリングプロセス中に明確な検証を欠いているため、初期の段階で導入されたエラーがパイプラインを通過し、最終的なモデリング精度が低下する。
この課題に対処するため、TriVALは自動最適化モデリングの3段階(セマンティック仕様、数学的定式化、コード生成)で明示的な検証を行う三値化フレームワークである。
各ステージでは、TriVALはコンストラクト-バリデート-リビジョンループに従って、現在の結果をステージ固有の基準で評価し、必要に応じて修正する。
この設計は、ステージ全体にわたって蓄積される前にエラーを特定し、修正するのに役立つ。
NL4COPは、50の多様な問題タイプにまたがる150のインスタンスのベンチマークであり、より複雑な決定論理、より厳密な制約、既存のベンチマークよりも要求されるモデリング要件である。
NL4COPと確立されたベンチマークの実験により、TriVALは最先端の手法よりも一貫して優れており、最も困難な問題で最大の利益を得ていることが示されている。
関連論文リスト
- Opt-Verifier: Unleashing the Power of LLMs for Optimization Modeling via Dual-Side Verification [53.763212981479455]
本稿では、構造と解の両方の観点から、デュアルサイド検証(Opt-Verifier)を用いた新しいフレームワークを提案する。
一般的なベンチマーク実験により、我々の手法は精度が20%以上向上していることが示された。
論文 参考訳(メタデータ) (2026-05-28T08:09:52Z) - FrontierOR: Benchmarking LLMs' Capacity for Efficient Algorithm Design in Large-Scale Optimization [61.43300970020897]
大規模言語モデル(LLM)は、最適化モデリングとソルバコード生成にますます使われている。
既存のベンチマークは、実際のスケールと複雑さよりもはるかに低い、小さな、あるいは単純化された例に限られている。
現実的な大規模最適化問題に対して,LLMに基づく効率的なアルゴリズム設計を評価するための最初のベンチマークとしてFrontierORを紹介した。
論文 参考訳(メタデータ) (2026-05-24T20:10:42Z) - A Consistency-Centric Approach to Set-Based Optimization with Multiple Models of Unranked Fidelity [0.3447372337541619]
現実世界のアプリケーションでは、モデル精度は先入観としてほとんど知られておらず、単一の最も正確なモデルが誤解を招く可能性があると仮定する。
本稿では,S-BOMM(Set-Based Optimization with Multiple Models)と呼ばれる,フレキシブルなセットベース最適化手法を提案する。
単一のベストソリューションに頼るのではなく、モデル間の一貫性を重視することで、このセットベースのアプローチは最適化問題に対する実用的な代替手段を提供する。
論文 参考訳(メタデータ) (2026-02-28T20:30:41Z) - ORGEval: Graph-Theoretic Evaluation of LLMs in Optimization Modeling [18.8099769877788]
ORGEvalは線形および混合整数線形プログラムの定式化における大規模言語モデルの能力を評価するためのグラフ理論評価フレームワークである。
ORGEvalはモデル等価性の検出に成功し、ランダムなパラメータ構成で100%一貫した結果が得られることを示す。
この結果から,全てのLLMにおいて最適化モデリングは依然として困難であるが,DeepSeek-V3とClaude-Opus-4は直接的プロンプト下では最高の精度を達成できることがわかった。
論文 参考訳(メタデータ) (2025-10-31T16:35:52Z) - CALM Before the STORM: Unlocking Native Reasoning for Optimization Modeling [60.55856973678002]
大規模推論モデル (LRM) は、複雑な多段階推論において強力な機能を示した。
既存のドメイン適応手法は、元々は命令調整モデル用に設計されていたが、現代のLEMの高度な推論パターンをうまく利用できなかった。
我々は、最適化モデリングタスクのためのネイティブ推論モード内でのLEMを段階的に洗練するフレームワークである textbfCALM を提案する。
論文 参考訳(メタデータ) (2025-10-05T13:38:31Z) - TCPO: Thought-Centric Preference Optimization for Effective Embodied Decision-making [75.29820290660065]
本稿では,効果的な具体的意思決定のための思考中心推論最適化(TCPO)を提案する。
モデルの中間的推論プロセスの整合性を強調し、モデル劣化の問題を緩和する。
ALFWorld環境での実験では、平均成功率は26.67%であり、RL4VLMよりも6%向上している。
論文 参考訳(メタデータ) (2025-09-10T11:16:21Z) - Automated Optimization Modeling through Expert-Guided Large Language Model Reasoning [43.63419208391747]
本稿では,最適化プロセスを自動化するチェーン・オブ・シント推論を通じて,専門家レベルの最適化モデリングの原則を活用する新しいフレームワークを提案する。
また、ロジスティクス領域からの新しい最適化モデリングベンチマークであるLogiORを導入し、標準化されたアノテーションに関するより複雑な問題を含む。
論文 参考訳(メタデータ) (2025-08-20T04:14:54Z) - Autoformulation of Mathematical Optimization Models Using LLMs [50.030647274271516]
本稿では,自然言語問題記述から解法対応最適化モデルを自動生成する,$textitautoformulation$の問題にアプローチする。
オートフォーミュレーションの3つの主要な課題を識別する: $textit(1)$ 巨大で問題に依存した仮説空間、および$textit(2)$ 不確実性の下でこの空間を効率的かつ多様に探索する。
我々は,$textitLarge Language Models$と$textitMonte-Carlo Tree Search$を併用した新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-03T20:41:38Z) - Automatically Learning Compact Quality-aware Surrogates for Optimization
Problems [55.94450542785096]
未知パラメータで最適化問題を解くには、未知パラメータの値を予測し、これらの値を用いて問題を解くための予測モデルを学ぶ必要がある。
最近の研究によると、複雑なトレーニングモデルパイプラインのレイヤーとして最適化の問題を含めると、観測されていない意思決定の繰り返しを予測することになる。
我々は,大規模最適化問題の低次元サロゲートモデルを学習することにより,解の質を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-06-18T19:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。