論文の概要: OR-R1: Automating Modeling and Solving of Operations Research Optimization Problem via Test-Time Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.09092v1
- Date: Thu, 13 Nov 2025 01:31:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.406848
- Title: OR-R1: Automating Modeling and Solving of Operations Research Optimization Problem via Test-Time Reinforcement Learning
- Title(参考訳): OR-R1:テスト時間強化学習による運用研究最適化問題のモデル化と解法
- Authors: Zezhen Ding, Zhen Tan, Jiheng Zhang, Tianlong Chen,
- Abstract要約: 本稿では,自動最適化のためのデータ効率トレーニングフレームワークOR-R1を提案する。
実験の結果、OR-R1は平均解法精度が67.7%の最先端性能を達成していることがわかった。
- 参考スコア(独自算出の注目度): 44.346973471913856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optimization modeling and solving are fundamental to the application of Operations Research (OR) in real-world decision making, yet the process of translating natural language problem descriptions into formal models and solver code remains highly expertise intensive. While recent advances in large language models (LLMs) have opened new opportunities for automation, the generalization ability and data efficiency of existing LLM-based methods are still limited, asmost require vast amounts of annotated or synthetic data, resulting in high costs and scalability barriers. In this work, we present OR-R1, a data-efficient training framework for automated optimization modeling and solving. OR-R1 first employs supervised fine-tuning (SFT) to help the model acquire the essential reasoning patterns for problem formulation and code generation from limited labeled data. In addition, it improves the capability and consistency through Test-Time Group Relative Policy Optimization (TGRPO). This two-stage design enables OR-R1 to leverage both scarce labeled and abundant unlabeled data for effective learning. Experiments show that OR-R1 achieves state-of-the-art performance with an average solving accuracy of $67.7\%$, using only $1/10$ the synthetic data required by prior methods such as ORLM, exceeding ORLM's solving accuracy by up to $4.2\%$. Remarkably, OR-R1 outperforms ORLM by over $2.4\%$ with just $100$ synthetic samples. Furthermore, TGRPO contributes an additional $3.1\%-6.4\%$ improvement in accuracy, significantly narrowing the gap between single-attempt (Pass@1) and multi-attempt (Pass@8) performance from $13\%$ to $7\%$. Extensive evaluations across diverse real-world benchmarks demonstrate that OR-R1 provides a robust, scalable, and cost-effective solution for automated OR optimization problem modeling and solving, lowering the expertise and data barriers for industrial OR applications.
- Abstract(参考訳): 最適化モデリングと解法は実世界の意思決定におけるオペレーショナル・リサーチ(OR)の適用の基礎であるが、自然言語の問題をフォーマルなモデルとソルバ・コードに翻訳するプロセスは、非常に専門性の高いままである。
近年の大規模言語モデル(LLM)の進歩は自動化の新たな機会を開いたが、既存のLCMベースの手法の一般化能力とデータ効率は依然として制限されており、大量の注釈や合成データを必要とするため、高いコストとスケーラビリティの障壁が生じる。
本研究では,自動最適化のためのデータ効率トレーニングフレームワークOR-R1を提案する。
OR-R1は、まず教師付き微調整(SFT)を使用して、限定ラベル付きデータから問題定式化とコード生成に必要な推論パターンを取得する。
さらに、TGRPO(Test-Time Group Relative Policy Optimization)を通じて、機能と一貫性を改善します。
この2段階の設計により、OR-R1は少ないラベル付きデータと豊富なラベル付きデータの両方を効果的に学習できる。
実験の結果、ORLMのような従来の手法で要求される合成データ1/10ドルしか使用せず、平均的な解法精度が67.7 %$で、ORLMの解法精度を最大4.2 %まで上回っていることがわかった。
OR-R1は、わずか100ドルの合成サンプルでORLMを2.4 %以上上回っている。
さらに、TGRPOは3.1\%-6.4\%の精度向上に寄与し、シングルアタプティブ(Pass@1)とマルチアタプティブ(Pass@8)のパフォーマンスのギャップを13\%から7\%$に大幅に狭めている。
様々な実世界のベンチマークによる広範囲な評価により、OR-R1は、産業用ORアプリケーションの専門知識とデータバリアを低減し、自動化されたOR最適化問題モデリングと解決のための堅牢でスケーラブルで費用対効果の高いソリューションを提供することが示された。
関連論文リスト
- MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization [103.74675519953898]
ロングチェーンのリフレクティブ推論は、複雑な現実世界の問題を解決するための前提条件である。
我々は42の難解な合成タスクの1,260のサンプルからなるベンチマークを構築した。
トレーニング後のデータを生成し、そのようなデータを活用するための学習パラダイムを探索する。
論文 参考訳(メタデータ) (2025-10-09T17:53:58Z) - Step-Opt: Boosting Optimization Modeling in LLMs through Iterative Data Synthesis and Structured Validation [18.18239596347168]
Step-Opt-Instructは、既存のデータセットを拡張し、最適化モデリングに適した高品質な微調整データを生成するフレームワークである。
LLaMA-3-8B や Mistral-7B などのオープンソース LLM を微調整し,NL4OPT,MAMO,IndustrialOR などのベンチマーク上で最先端のパフォーマンスを実現するStep-Opt-a モデルを開発した。
論文 参考訳(メタデータ) (2025-06-21T08:42:27Z) - ORMind: A Cognitive-Inspired End-to-End Reasoning Framework for Operations Research [56.961539386979354]
ORMindは認知にインスパイアされたフレームワークで、反ファクト推論を通じて最適化を強化する。
提案手法は,要求を数学的モデルや実行可能なコードに変換するエンド・ツー・エンドのワークフローを実装し,人間の認識をエミュレートする。
現在はLenovoのAIアシスタントで内部でテストされており、ビジネスとコンシューマの両方の最適化機能を強化する予定である。
論文 参考訳(メタデータ) (2025-06-02T05:11:21Z) - OR-LLM-Agent: Automating Modeling and Solving of Operations Research Optimization Problems with Reasoning LLM [15.260794368585692]
自動オペレーションリサーチ問題解決のためのLLMを推論するAIエージェントフレームワークであるOR-LLM-Agentを提案する。
GPT-o3, Gemini 2.5 Pro, DeepSeek-R1, ORLMなどの高度な手法よりも, OR-LLM-Agentの精度を7%以上向上させることを示す。
論文 参考訳(メタデータ) (2025-03-13T03:40:50Z) - Autoformulation of Mathematical Optimization Models Using LLMs [50.030647274271516]
本稿では,自然言語問題記述から解法対応最適化モデルを自動生成する,$textitautoformulation$の問題にアプローチする。
オートフォーミュレーションの3つの主要な課題を識別する: $textit(1)$ 巨大で問題に依存した仮説空間、および$textit(2)$ 不確実性の下でこの空間を効率的かつ多様に探索する。
我々は,$textitLarge Language Models$と$textitMonte-Carlo Tree Search$を併用した新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-03T20:41:38Z) - ORLM: A Customizable Framework in Training Large Models for Automated Optimization Modeling [15.67321902882617]
本稿では,オープンソースのLLMをトレーニングし,モデリングやソルバコードの開発を最適化する実行可能なパスを提案する。
この研究は、実用的なOR問題の解決においてLLMを評価するための最初の産業ベンチマークであるIndustrialORも導入した。
論文 参考訳(メタデータ) (2024-05-28T01:55:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。