論文の概要: AutoOR: Scalably Post-training LLMs to Autoformalize Operations Research Problems
- arxiv url: http://arxiv.org/abs/2604.16804v1
- Date: Sat, 18 Apr 2026 03:24:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.18092
- Title: AutoOR: Scalably Post-training LLMs to Autoformalize Operations Research Problems
- Title(参考訳): AutoOR: 運用研究を自動化するためのスケーラブルなポストトレーニングLDM
- Authors: Sumeet Ramesh Motwani, Chuan Du, Aleksander Petrov, Christopher Davis, Philip Torr, Antonio Papania-Davis, Weishi Yan,
- Abstract要約: 本稿では,拡張性のある合成データ生成および強化学習パイプラインであるAutoORについて述べる。
AutoORは、標準最適化フォームから検証済みのトレーニングデータを生成し、RL後トレーニングの報奨信号としてソルバ実行フィードバックを使用する。
我々は、AutoORのような手法がAIによる工業的意思決定を著しく加速できると考えている。
- 参考スコア(独自算出の注目度): 54.593031581486116
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Optimization problems are central to decision-making in manufacturing, logistics, scheduling, and other industrial settings. Translating complicated descriptions of these problems into solver-ready formulations requires specialized operations research (OR) expertise, making it hard to scale. We present AutoOR, a scalable synthetic data generation and reinforcement learning pipeline that trains LLMs to autoformalize optimization problems specified in natural language across linear, mixed-integer, and non-linear categories. AutoOR generates verified training data from standard optimization forms and uses solver execution feedback as the reward signal for RL post-training. AutoOR applied to an 8B model achieves state-of-the-art or competitive results across six established OR benchmarks, matching significantly larger frontier models. For a non-linear problem class involving physical dynamics, where frontier models score near 0%, we introduce a curriculum RL strategy that bootstraps from limited initial training data to make this class tractable for post-training. We believe that methods such as AutoOR can significantly accelerate industrial decision-making with AI.
- Abstract(参考訳): 最適化問題は、製造、物流、スケジューリング、その他の産業環境における意思決定の中心である。
これらの問題の複雑な記述をソルバ対応の定式化に変換するには、専門的なオペレーションリサーチ(OR)の専門知識が必要であるため、スケールアップが困難である。
本稿では,線形,混合整数,非線形のカテゴリにまたがって,自然言語で指定された最適化問題の自動形式化をLLMに教える,スケーラブルな合成データ生成および強化学習パイプラインであるAutoORを提案する。
AutoORは、標準最適化フォームから検証済みのトレーニングデータを生成し、RL後トレーニングの報奨信号としてソルバ実行フィードバックを使用する。
8Bモデルに適用されたAutoORは、6つの確立されたORベンチマークで最先端または競合的な結果を達成する。
本稿では,フロンティアモデルのスコアが0%近くとなる物理力学を含む非線形問題クラスについて,初期訓練データからブートストラップするカリキュラムRL戦略を導入し,このクラスを後学習に利用できるようにする。
我々は、AutoORのような手法がAIによる工業的意思決定を著しく加速できると考えている。
関連論文リスト
- Automated Optimization Modeling via a Localizable Error-Driven Perspective [20.591721861026414]
本稿では,自動最適化のための新しい誤り駆動学習フレームワークを提案する。
MINDはデータ合成からポストトレーニングまで、モデルトレーニングフレームワーク全体をカスタマイズした。
MINDは、最先端の自動化最適化モデリングアプローチを一貫して上回っている。
論文 参考訳(メタデータ) (2026-01-17T09:59:01Z) - DiRL: An Efficient Post-Training Framework for Diffusion Language Models [54.405206032785706]
Diffusion Language Models (dLLMs) はAuto-Regressive(AR)モデルに代わる有望な代替品として登場した。
既存の手法は、訓練と推論の間の計算の非効率性と客観的なミスマッチに悩まされている。
我々は,FlexAttention-accelerated blockwise trainingとLMDeploy-timized inferenceを密接に統合した,効率的なポストトレーニングフレームワークであるDiRLを紹介した。
論文 参考訳(メタデータ) (2025-12-23T08:33:19Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - ORLM: A Customizable Framework in Training Large Models for Automated Optimization Modeling [15.67321902882617]
本稿では,オープンソースのLLMをトレーニングし,モデリングやソルバコードの開発を最適化する実行可能なパスを提案する。
この研究は、実用的なOR問題の解決においてLLMを評価するための最初の産業ベンチマークであるIndustrialORも導入した。
論文 参考訳(メタデータ) (2024-05-28T01:55:35Z) - Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning [50.9692060692705]
本稿では、オフラインRL用の決定変換器をベースとした一般的なフレームワークである、$textbfMo$tion Control(textbfLaMo$)のための$textbfLanguage Modelsを紹介する。
私たちのフレームワークは4つの重要なコンポーネントを強調しています。
逐次事前学習したLMを用いた決定変換器の初期化(2)LoRA微細調整法を用いて
特に,本手法は,限られたデータサンプルを持つシナリオにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-31T16:24:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。