論文の概要: CORL: Reinforcement Learning of MILP Policies Solved via Branch and Bound
- arxiv url: http://arxiv.org/abs/2512.11169v1
- Date: Thu, 11 Dec 2025 23:20:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.596884
- Title: CORL: Reinforcement Learning of MILP Policies Solved via Branch and Bound
- Title(参考訳): CORL:ブランチとバウンドを経由したMILPポリシの強化学習
- Authors: Akhil S Anand, Elias Aarekol, Martin Mziray Dalseg, Magnus Stalhane, Sebastien Gros,
- Abstract要約: 組合せ逐次決定問題は通常、混合整数線形プログラム(MILP)としてモデル化される
実世界の問題を正確に表現したMILPをモデル化することの難しさは、実世界の準最適性能に繋がる。
実世界のデータに強化学習(RL)を用いてMILPスキームを微調整し,その運用性能を最大化する概念CORLフレームワークを提案する。
- 参考スコア(独自算出の注目度): 2.070419973405808
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Combinatorial sequential decision making problems are typically modeled as mixed integer linear programs (MILPs) and solved via branch and bound (B&B) algorithms. The inherent difficulty of modeling MILPs that accurately represent stochastic real world problems leads to suboptimal performance in the real world. Recently, machine learning methods have been applied to build MILP models for decision quality rather than how accurately they model the real world problem. However, these approaches typically rely on supervised learning, assume access to true optimal decisions, and use surrogates for the MILP gradients. In this work, we introduce a proof of concept CORL framework that end to end fine tunes an MILP scheme using reinforcement learning (RL) on real world data to maximize its operational performance. We enable this by casting an MILP solved by B&B as a differentiable stochastic policy compatible with RL. We validate the CORL method in a simple illustrative combinatorial sequential decision making example.
- Abstract(参考訳): 組合せシーケンシャルな決定問題は通常、混合整数線形プログラム(MILP)としてモデル化され、分岐とバウンド(B&B)アルゴリズムによって解決される。
確率的実世界の問題を正確に表現したMILPをモデル化することの難しさは、実世界の準最適性能に繋がる。
近年,実世界の問題を正確にモデル化するよりも,意思決定品質のためのMILPモデル構築に機械学習手法が応用されている。
しかしながら、これらのアプローチは典型的には教師付き学習に頼り、真の最適決定へのアクセスを前提とし、MILP勾配にサロゲートを使用する。
本研究では,実世界のデータに強化学習(RL)を用いてMILPスキームを微調整し,運用性能を最大化する概念CORLフレームワークの実証を紹介する。
我々は、B&B が解決した MILP を RL と互換性のある微分確率的ポリシーとしてキャストすることで、これを実現した。
我々は,CORL法を単純な図式合成逐次決定例で検証する。
関連論文リスト
- FMIP: Joint Continuous-Integer Flow For Mixed-Integer Linear Programming [52.52020895303244]
Mixed-Integer Linear Programming (MILP)は、複雑な意思決定問題の基本的なツールである。
混合整数線形計画法(FMIP)のための連立連続整数フローを提案する。これはMILPソリューションにおける整数変数と連続変数の共分散をモデル化する最初の生成フレームワークである。
FMIPは任意のバックボーンネットワークや様々なダウンストリームソルバと完全に互換性があり、現実世界のMILPアプリケーションにも適している。
論文 参考訳(メタデータ) (2025-07-31T10:03:30Z) - Fast and Interpretable Mixed-Integer Linear Program Solving by Learning Model Reduction [24.3088703166792]
本稿では,MILPの縮小モデルと等価モデルを中間段階として学習することを目的とする。
縮小モデルはしばしば解釈可能な操作に対応しており、既存の商用解法よりもはるかに高速に大規模MILP問題を解くことができる。
本稿では,モデル縮小学習タスクの性能向上に寄与する嗜好情報を捕捉し,表現するための注意機構を提案する。
論文 参考訳(メタデータ) (2024-12-31T06:50:42Z) - Towards An Unsupervised Learning Scheme for Efficiently Solving Parameterized Mixed-Integer Programs [6.1860817947800655]
教師なし学習方式でバイナリ変数の自動エンコーダを訓練する。
オフライン学習AEのデコーダパラメータから平面制約を切断するクラスを構築する戦略を提案する。
原始的なMIP問題への統合は、実現可能な領域を縮小したMIPの強化につながる。
論文 参考訳(メタデータ) (2024-12-23T14:48:32Z) - RL-SPH: Learning to Achieve Feasible Solutions for Integer Linear Programs [3.3894236476098185]
RL-SPHは、非二項整数を含むILPに対しても独立に実現可能な解を生成することができる新しい強化学習ベーススタートプライマーである。
実験により、RL-SPHは、既存の原始よりも平均44倍低い原始ギャップと2.3倍低い積分を達成し、高品質な実現可能な解を迅速に得ることが示された。
論文 参考訳(メタデータ) (2024-11-29T07:23:34Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - A General Framework for Sample-Efficient Function Approximation in
Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。
最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。
本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:16Z) - A Bi-Level Framework for Learning to Solve Combinatorial Optimization on
Graphs [91.07247251502564]
本稿では,2つの世界の長所を結合するハイブリッドな手法を提案する。この手法では,グラフを最適化する上層学習手法とバイレベルフレームワークを開発する。
このような二段階のアプローチは、元のハードCOでの学習を単純化し、モデルキャパシティの需要を効果的に軽減することができる。
論文 参考訳(メタデータ) (2021-06-09T09:18:18Z) - SOLO: Search Online, Learn Offline for Combinatorial Optimization
Problems [4.777801093677586]
我々は,機械スケジューリングやルーティング,割当てといった実世界のアプリケーションで問題を研究する。
RL(Reinforcement Learning)とプランニングを組み合わせた手法を提案する。
この方法は、オフラインでも、オンラインでも、問題のコンポーネントが事前に分かっておらず、むしろ意思決定プロセス中に現れるような、問題の変種にも等しく適用することができる。
論文 参考訳(メタデータ) (2021-04-04T17:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。