論文の概要: Execution-Verified Reinforcement Learning for Optimization Modeling
- arxiv url: http://arxiv.org/abs/2604.00442v1
- Date: Wed, 01 Apr 2026 03:39:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.820078
- Title: Execution-Verified Reinforcement Learning for Optimization Modeling
- Title(参考訳): 最適化モデリングのための実行検証強化学習
- Authors: Runda Guan, Xiangqing Shen, Jiajun Zhang, Yifan Zhang, Jian Cheng, Rui Xia,
- Abstract要約: 実行検証学習フレームワークは、数学的プログラミング解法を決定論的で対話的な検証器として扱う。
NL4OPT, MAMO, IndustryOR, OptiBenchをグロビ, OR-Tools, COPTで行った実験では, EVOMがプロセス管理SFTに適合または優れていた。
- 参考スコア(独自算出の注目度): 49.171122807323634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automating optimization modeling with LLMs is a promising path toward scalable decision intelligence, but existing approaches either rely on agentic pipelines built on closed-source LLMs with high inference latency, or fine-tune smaller LLMs using costly process supervision that often overfits to a single solver API. Inspired by reinforcement learning with verifiable rewards, we propose Execution-Verified Optimization Modeling (EVOM), an execution-verified learning framework that treats a mathematical programming solver as a deterministic, interactive verifier. Given a natural-language problem and a target solver, EVOM generates solver-specific code, executes it in a sandboxed harness, and converts execution outcomes into scalar rewards, optimized with GRPO and DAPO in a closed-loop generate-execute-feedback-update process. This outcome-only formulation removes the need for process-level supervision, and enables cross-solver generalization by switching the verification environment rather than reconstructing solver-specific datasets. Experiments on NL4OPT, MAMO, IndustryOR, and OptiBench across Gurobi, OR-Tools, and COPT show that EVOM matches or outperforms process-supervised SFT, supports zero-shot solver transfer, and achieves effective low-cost solver adaptation by continuing training under the target solver backend.
- Abstract(参考訳): LLMによる最適化モデリングの自動化は、スケーラブルな意思決定インテリジェンスに向けた有望な道のりだが、既存のアプローチは、高い推論レイテンシを持つクローズドソースのLLM上に構築されたエージェントパイプラインに依存するか、あるいは単一のソルバAPIに過度に適合するコストの高いプロセス監視を使用して、より小さなLLMを微調整する。
検証可能な報酬を伴う強化学習に触発されて,数理計画解法を決定論的かつインタラクティブな検証器として扱う実行検証学習フレームワークであるExecution-Verified Optimization Modeling (EVOM)を提案する。
自然言語問題と目標ソルバが与えられた場合、EVOMはソルバ固有のコードを生成し、サンドボックス化されたハーネスで実行し、実行結果をスカラー報酬に変換し、クローズドループ生成・実行・フィードバック更新プロセスにおいてGRPOおよびDAPOに最適化する。
この結果のみの定式化は、プロセスレベルの監視の必要性を排除し、解決者固有のデータセットを再構築するのではなく、検証環境を切り替えることにより、クロスゾルバの一般化を可能にする。
NL4OPT, MAMO, IndustryOR, OptiBenchをGurobi, OR-Tools, COPTで実験したところ, EVOMはプロセス管理されたSFTに適合し, ゼロショットソルバ転送をサポートし, 目標ソルババックエンド下でのトレーニングを継続することにより, 効率的な低コストソルバ適応を実現することができた。
関連論文リスト
- SOCRATES: Simulation Optimization with Correlated Replicas and Adaptive Trajectory Evaluations [25.18297372152296]
SOCRATESは、調整されたSOアルゴリズムの設計を自動化する新しい2段階のプロシージャである。
実システムのデジタルレプリカのアンサンブルは、ベースラインSOアルゴリズムのセットを評価するテストベッドとして使用される。
LLMはメタ最適化器として機能し、これらのアルゴリズムのパフォーマンストラジェクトリを分析して、最終的なハイブリッド最適化スケジュールを反復的に修正し構成する。
論文 参考訳(メタデータ) (2025-11-01T19:57:38Z) - SolverLLM: Leveraging Test-Time Scaling for Optimization Problem via LLM-Guided Search [58.116954449750544]
多様な最適化問題を解決するために,テスト時間スケーリングを活用したトレーニング不要のフレームワークを導入する。
直接的に解くのではなく、数学的定式化を生成し、新しいモンテカルロ木探索戦略によって導かれる解法対応のコードに変換する。
論文 参考訳(メタデータ) (2025-10-19T16:21:19Z) - From Natural Language to Solver-Ready Power System Optimization: An LLM-Assisted, Validation-in-the-Loop Framework [1.7136832159667206]
本稿では,Large Language Models (LLMs) を用いたエージェントを導入し,電力系統最適化シナリオの自然言語記述を,コンパクトで解決可能な定式化に自動変換する。
提案手法は,オフザシェルフ最適化解法により効率よく解ける数学的に互換性のある定式化の発見に重点を置いている。
論文 参考訳(メタデータ) (2025-08-11T16:22:57Z) - OptiHive: Ensemble Selection for LLM-Based Optimization via Statistical Modeling [3.8366697175402225]
我々は,反復的な自己言語を使わずに,自然補正記述から高品質な問題解決を行うフレームワークOptiHiveを紹介した。
OptiHiveは単一のバッチLLMクエリを使用して、さまざまなコンポーネント(ソルバ、問題インスタンス、バリデーションテスト)を生成し、誤ったコンポーネントをフィルタリングして完全に解釈可能な出力を保証する。
従来の最適化問題からMulti-Depot Vehicle Routing Problemの変種への挑戦に至るまでのタスクにおいて、OptiHiveはベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-08-04T15:11:51Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - IMPROVE: Iterative Model Pipeline Refinement and Optimization Leveraging LLM Experts [28.9807389592324]
機械学習のワークフローを自動化するための有望なソリューションとして、大規模言語モデル(LLM)エージェントが登場した。
LLM駆動のMLパイプライン設計のための新しい戦略であるIterative Refinementを紹介します。
実際のトレーニングフィードバックに基づいて個々のコンポーネントを体系的に更新することにより、イテレーティブリファインメントはモデル全体のパフォーマンスを改善する。
論文 参考訳(メタデータ) (2025-02-25T01:52:37Z) - Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。