論文の概要: Reinforcement Learning for Combinatorial Optimization: A Survey
- arxiv url: http://arxiv.org/abs/2003.03600v3
- Date: Thu, 24 Dec 2020 12:57:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 19:30:18.674113
- Title: Reinforcement Learning for Combinatorial Optimization: A Survey
- Title(参考訳): 組合せ最適化のための強化学習:調査
- Authors: Nina Mazyavkina and Sergey Sviridov and Sergei Ivanov and Evgeny
Burnaev
- Abstract要約: 最適化問題を解決する多くの伝統的なアルゴリズムは、解決を逐次構築する手工芸品を使用する。
強化学習(Reinforcement Learning, RL)は、エージェントを監督的または自己監督的な方法で訓練することにより、これらの検索を自動化する優れた代替手段を提案する。
- 参考スコア(独自算出の注目度): 12.323976053967066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many traditional algorithms for solving combinatorial optimization problems
involve using hand-crafted heuristics that sequentially construct a solution.
Such heuristics are designed by domain experts and may often be suboptimal due
to the hard nature of the problems. Reinforcement learning (RL) proposes a good
alternative to automate the search of these heuristics by training an agent in
a supervised or self-supervised manner. In this survey, we explore the recent
advancements of applying RL frameworks to hard combinatorial problems. Our
survey provides the necessary background for operations research and machine
learning communities and showcases the works that are moving the field forward.
We juxtapose recently proposed RL methods, laying out the timeline of the
improvements for each problem, as well as we make a comparison with traditional
algorithms, indicating that RL models can become a promising direction for
solving combinatorial problems.
- Abstract(参考訳): 組合せ最適化問題を解決するための多くの伝統的なアルゴリズムは、解を順次構築する手作りのヒューリスティックを用いる。
このようなヒューリスティックはドメインの専門家によって設計され、しばしば問題の厳しい性質のために最適化される。
強化学習(rl)は,教師付きあるいは自己監督型の方法でエージェントを訓練することにより,これらのヒューリスティックスの探索を自動化する優れた方法を提案する。
本稿では、RLフレームワークを難しい組合せ問題に適用する最近の進歩について考察する。
我々の調査は、運用研究や機械学習コミュニティに必要な背景を提供し、現場を前進させる作業を紹介します。
我々は最近提案したRL法について、各問題の改善のタイムラインを概説するとともに、従来のアルゴリズムとの比較を行い、RLモデルが組合せ問題を解く上で有望な方向となることを示す。
関連論文リスト
- Beyond Training: Optimizing Reinforcement Learning Based Job Shop Scheduling Through Adaptive Action Sampling [10.931466852026663]
推論における訓練深部強化学習(DRL)エージェントの最適利用について検討した。
我々の研究は、探索アルゴリズムと同様に、訓練されたDRLエージェントの利用は許容できる計算予算に依存するべきであるという仮説に基づいている。
そこで本稿では, 与えられた多数の解と任意の訓練されたエージェントに対して最適なパラメータ化を求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-11T14:59:18Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Online Control of Adaptive Large Neighborhood Search using Deep Reinforcement Learning [4.374837991804085]
DR-ALNSと呼ばれる深層強化学習に基づくアプローチを導入し、演算子を選択し、パラメータを調整し、検索全体を通して受け入れ基準を制御する。
提案手法は,IJCAIコンペティションで提示されたオリエンテーリングウェイトと時間窓の問題に対して評価する。
その結果,本手法はバニラALNSよりも優れており,ALNSはベイジアン最適化と2つの最先端DRLアプローチに適合していることがわかった。
論文 参考訳(メタデータ) (2022-11-01T21:33:46Z) - Socio-cognitive Optimization of Time-delay Control Problems using
Evolutionary Metaheuristics [89.24951036534168]
メタヒューリスティックス(Metaheuristics)は、古典的なアプローチでは解決できない難解な問題を解くために使用される普遍的な最適化アルゴリズムである。
本稿では,キャストに基づく新しい社会認知メタヒューリスティックの構築を目標とし,このアルゴリズムのいくつかのバージョンを時間遅延システムモデルの最適化に適用する。
論文 参考訳(メタデータ) (2022-10-23T22:21:10Z) - Solving the vehicle routing problem with deep reinforcement learning [0.0]
本稿では,NP-Hard 問題のクラスに属する有名な問題である Vehicle Routing Problem (VRP) に対する RL の適用について述べる。
第2フェーズでは、アクターと批評家の背後にあるニューラルアーキテクチャが確立され、畳み込みニューラルネットワークに基づいたニューラルアーキテクチャを採用することが選択された。
広範囲なインスタンスで行った実験では、アルゴリズムが優れた一般化能力を持ち、短時間で良い解に達することが示されている。
論文 参考訳(メタデータ) (2022-07-30T12:34:26Z) - Sample-Efficient, Exploration-Based Policy Optimisation for Routing
Problems [2.6782615615913348]
本稿では,エントロピーに基づく新しい強化学習手法を提案する。
さらに、我々は、期待したリターンを最大化する、政治以外の強化学習手法を設計する。
我々のモデルは様々な経路問題に一般化可能であることを示す。
論文 参考訳(メタデータ) (2022-05-31T09:51:48Z) - Reinforcement Learning for Branch-and-Bound Optimisation using
Retrospective Trajectories [72.15369769265398]
機械学習は分岐のための有望なパラダイムとして登場した。
分岐のための単純かつ効果的なRLアプローチであるレトロ分岐を提案する。
我々は現在最先端のRL分岐アルゴリズムを3~5倍に上回り、500の制約と1000の変数を持つMILP上での最高のILメソッドの性能の20%以内である。
論文 参考訳(メタデータ) (2022-05-28T06:08:07Z) - Neural Combinatorial Optimization: a New Player in the Field [69.23334811890919]
本稿では,ニューラルネットワークに基づくアルゴリズムの古典的最適化フレームワークへの導入に関する批判的分析を行う。
性能, 転送可能性, 計算コスト, 大規模インスタンスなど, これらのアルゴリズムの基本的側面を分析するために, 総合的研究を行った。
論文 参考訳(メタデータ) (2022-05-03T07:54:56Z) - Reinforcement Learning to Solve NP-hard Problems: an Application to the
CVRP [0.0]
古典的最適化問題の解法として強化学習(Reinforcement Learning, RL)を応用した。
最も有望なRLアプローチの2つを、ベンチマークインスタンスのセットで従来の問題解決手法と比較する。
最良解を返さないにもかかわらず、RLアプローチは従来の解法よりも多くの利点があることがわかった。
論文 参考訳(メタデータ) (2022-01-14T11:16:17Z) - An Overview and Experimental Study of Learning-based Optimization
Algorithms for Vehicle Routing Problem [49.04543375851723]
車両ルーティング問題(VRP)は典型的な離散最適化問題である。
多くの研究は、VRPを解決するための学習に基づく最適化アルゴリズムについて検討している。
本稿では、最近のこの分野の進歩を概観し、関連するアプローチをエンドツーエンドアプローチとステップバイステップアプローチに分割する。
論文 参考訳(メタデータ) (2021-07-15T02:13:03Z) - A Two-stage Framework and Reinforcement Learning-based Optimization
Algorithms for Complex Scheduling Problems [54.61091936472494]
本稿では、強化学習(RL)と従来の運用研究(OR)アルゴリズムを組み合わせた2段階のフレームワークを開発する。
スケジューリング問題は,有限マルコフ決定過程 (MDP) と混合整数計画過程 (mixed-integer programming process) の2段階で解決される。
その結果,本アルゴリズムは,アジャイルな地球観測衛星スケジューリング問題に対して,安定かつ効率的に十分なスケジューリング計画を得ることができた。
論文 参考訳(メタデータ) (2021-03-10T03:16:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。