論文の概要: Collab-Solver: Collaborative Solving Policy Learning for Mixed-Integer Linear Programming
- arxiv url: http://arxiv.org/abs/2508.03030v1
- Date: Tue, 05 Aug 2025 03:16:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.750961
- Title: Collab-Solver: Collaborative Solving Policy Learning for Mixed-Integer Linear Programming
- Title(参考訳): Collab-Solver: 混合整数線形プログラミングのための協調的問題解決政策学習
- Authors: Siyuan Li, Yifan Yu, Yanchen Deng, Zhihao Zhang, Mengjing Chen, Fangzhou Zhu, Tao Zhong, Jianye Hao, Peng Liu, Bo An,
- Abstract要約: StackelbergゲームとしてMILP問題解決のための新しいマルチエージェントベースのポリシー学習フレームワークを提案する。
具体的には,スタックルバーグゲームとしてMILP解法におけるカット選択と分岐の協調を定式化する。
共同学習されたポリシーは、合成および大規模実世界のMILPデータセットの問題解決性能を著しく向上させる。
- 参考スコア(独自算出の注目度): 57.44900640134789
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixed-integer linear programming (MILP) has been a fundamental problem in combinatorial optimization. Previous works have designed a plethora of hard-coded heuristics to accomplish challenging MILP solving with domain knowledge. Driven by the high capability of neural networks, recent research is devoted to replacing manually designed heuristics with learned policies. Although learning-based MILP methods have shown great promise, existing worksindependentlytreatthepolicylearningineachmoduleofMILPsolvers without considering their interdependence, severely hurting the solving speed and quality. To address this issue, we propose a novel multi-agent-based policy learning framework for MILP (Collab-Solver), which can collaboratively optimize the policies for multiple modules. Specifically, we formulate the collaboration of cut selection and branching in MILP solving as a Stackelberg game. Under this formulation, we develop a two-phase learning paradigm to stabilize the collaborative policy learning, where the first phase achieves the data-communicated policy pretraining and the second phase further orchestrates the policy learning for various modules. The jointly learned policy significantly improves the solving performance on both synthetic and large-scale real-world MILP datasets. Moreover, the policies learned by Collab-Solver have also demonstrated excellent generalization abilities across different instance sets.
- Abstract(参考訳): 混合整数線形プログラミング(MILP)は組合せ最適化の基本的な問題である。
それまでの研究は、ドメイン知識によるMILP問題解決に挑戦するために、数多くのハードコードヒューリスティックを設計してきた。
ニューラルネットワークの高機能によって駆動される最近の研究は、手作業で設計されたヒューリスティックを学習ポリシーに置き換えることに重点を置いている。
学習に基づくMILP法は非常に有望であるが,既存の工法に依存しないMILP解法は相互依存を考慮せず,解法速度と品質を著しく損なう。
この問題に対処するために,MILP(Collab-Solver)のための新しいマルチエージェントベースのポリシー学習フレームワークを提案する。
具体的には,スタックルバーグゲームとしてMILP解法におけるカット選択と分岐の協調を定式化する。
この定式化の下で、我々は協調的な政策学習を安定させる2段階学習パラダイムを開発し、第1段階はデータ通信型政策事前学習を実現し、第2段階は様々なモジュールの政策学習をさらに編成する。
共同学習されたポリシーは、合成および大規模実世界のMILPデータセットの問題解決性能を著しく向上させる。
さらに、Collab-Solver が学んだポリシーは、異なるインスタンス集合にまたがる優れた一般化能力を示している。
関連論文リスト
- Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Offline Imitation Learning from Multiple Baselines with Applications to Compiler Optimization [17.729842629392742]
我々は,Kベースラインポリシーで収集した一連のトラジェクトリを与えられる強化学習問題について検討する。
目標は、状態空間全体におけるベースラインの最高の組み合わせと同様に、機能するポリシーを学ぶことです。
論文 参考訳(メタデータ) (2024-03-28T14:34:02Z) - Promoting Generalization for Exact Solvers via Adversarial Instance
Augmentation [62.738582127114704]
Adarは、模倣学習ベース(ILベース)と強化学習ベース(RLベース)の両方の一般化を理解し、改善するためのフレームワークである。
論文 参考訳(メタデータ) (2023-10-22T03:15:36Z) - Federated Multi-Objective Learning [22.875284692358683]
複数のクライアントを用いたFMOL(Federated Multi-Objective Learning)フレームワークを提案する。
私たちのFMOLフレームワークは、異なるクライアント間で異なる目的関数セットを提供し、幅広いアプリケーションをサポートします。
本フレームワークでは,FSMGDA (Federated Multi-gradient descent Averaging) とFSMGDA (Federated Multi-gradient descent Averaging) という2つの新しいFMOOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-15T15:45:51Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - A Model-Based Solution to the Offline Multi-Agent Reinforcement Learning
Coordination Problem [22.385585755496116]
既存のMARL(Multi-Agent Reinforcement Learning)手法はオンラインであり,新たなインタラクションの収集に費用がかかる,あるいは危険である実世界のアプリケーションには実用的ではない。
戦略合意(SA)と戦略細調整(SFT)の調整課題を特定し,定式化する。
MOMA-PPO (Model-based Offline Multi-Agent Proximal Policy Optimization) は,合成相互作用データを生成し,エージェントがポリシーを微調整しながら戦略に収束することを可能にするアルゴリズムである。
論文 参考訳(メタデータ) (2023-05-26T18:43:16Z) - Sample-Efficient Multi-Objective Learning via Generalized Policy
Improvement Prioritization [8.836422771217084]
マルチオブジェクト強化学習(MORL)アルゴリズムは、エージェントが異なる好みを持つ可能性のあるシーケンシャルな決定問題に対処する。
本稿では、一般化政策改善(GPI)を用いて、原則的、正式に派生した優先順位付けスキームを定義する新しいアルゴリズムを提案する。
実験により,本手法は多目的タスクの挑戦において,最先端のMORLアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-18T20:54:40Z) - Optimistic Linear Support and Successor Features as a Basis for Optimal
Policy Transfer [7.970144204429356]
我々は、SFが凸被覆集合を形成するポリシーの集合を学習するために、最適化線形サポートアルゴリズムのSFベースの拡張を導入する。
この集合におけるポリシは、一般化されたポリシー改善を通じて組み合わせて、新しい線形表現可能なタスクに対して最適な振る舞いを構築することができることを示す。
論文 参考訳(メタデータ) (2022-06-22T19:00:08Z) - MALib: A Parallel Framework for Population-based Multi-agent
Reinforcement Learning [61.28547338576706]
人口ベースマルチエージェント強化学習(PB-MARL)は、強化学習(RL)アルゴリズムでネストした一連の手法を指す。
PB-MARLのためのスケーラブルで効率的な計算フレームワークMALibを提案する。
論文 参考訳(メタデータ) (2021-06-05T03:27:08Z) - Composable Learning with Sparse Kernel Representations [110.19179439773578]
再生カーネルヒルベルト空間におけるスパース非パラメトリック制御系を学習するための強化学習アルゴリズムを提案する。
正規化アドバンテージ関数を通じてステートアクション関数の構造を付与することにより、このアプローチのサンプル複雑さを改善します。
2次元環境下を走行しながらレーザースキャナーを搭載したロボットの複数シミュレーションにおける障害物回避政策の学習に関するアルゴリズムの性能を実証する。
論文 参考訳(メタデータ) (2021-03-26T13:58:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。