論文の概要: Reinforcement Learning with Combinatorial Actions: An Application to
Vehicle Routing
- arxiv url: http://arxiv.org/abs/2010.12001v1
- Date: Thu, 22 Oct 2020 19:32:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 04:54:43.435465
- Title: Reinforcement Learning with Combinatorial Actions: An Application to
Vehicle Routing
- Title(参考訳): コンビネーションアクションによる強化学習 : 自動車ルーティングへの応用
- Authors: Arthur Delarue, Ross Anderson, Christian Tjandraatmadja
- Abstract要約: 我々は,強化行動空間を用いた価値関数に基づく深層強化学習の枠組みを開発する。
キャパシタン化車両ルーティング問題(CVRP)に対するこの枠組みの適用について述べる。
それぞれの事例において、アクションを単一ルートの構築としてモデル化し、単純なポリシーアルゴリズムによって改善される決定論的ポリシーを考える。
- 参考スコア(独自算出の注目度): 9.995347522610674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Value-function-based methods have long played an important role in
reinforcement learning. However, finding the best next action given a value
function of arbitrary complexity is nontrivial when the action space is too
large for enumeration. We develop a framework for value-function-based deep
reinforcement learning with a combinatorial action space, in which the action
selection problem is explicitly formulated as a mixed-integer optimization
problem. As a motivating example, we present an application of this framework
to the capacitated vehicle routing problem (CVRP), a combinatorial optimization
problem in which a set of locations must be covered by a single vehicle with
limited capacity. On each instance, we model an action as the construction of a
single route, and consider a deterministic policy which is improved through a
simple policy iteration algorithm. Our approach is competitive with other
reinforcement learning methods and achieves an average gap of 1.7% with
state-of-the-art OR methods on standard library instances of medium size.
- Abstract(参考訳): 価値関数に基づく手法は、長い間強化学習において重要な役割を担ってきた。
しかし、任意の複雑性の値関数を与える最良の次作用を見つけることは、作用空間が列挙するには大きすぎるとき非自明である。
本研究では,混合整数最適化問題として作用選択問題を明示的に定式化する,組合せ作用空間を用いた値関数に基づく深層強化学習フレームワークを開発する。
モチベーションとして,このフレームワークをキャパシタブル・ルーティング問題(cvrp)に適用し,キャパシティの制限された1台の車両で一組の場所をカバーしなければならない組合せ最適化問題を提案する。
各事例において、アクションを単一経路の構築としてモデル化し、単純なポリシー反復アルゴリズムによって改善される決定論的ポリシーを考える。
提案手法は他の強化学習手法と競合し,中規模の標準ライブラリインスタンスにおける最先端OR手法と平均差1.7%を達成する。
関連論文リスト
- UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - An Efficient Learning-based Solver Comparable to Metaheuristics for the
Capacitated Arc Routing Problem [67.92544792239086]
我々は,高度メタヒューリスティックスとのギャップを著しく狭めるため,NNベースの解法を導入する。
まず,方向対応型注意モデル(DaAM)を提案する。
第2に、教師付き事前学習を伴い、堅牢な初期方針を確立するための教師付き強化学習スキームを設計する。
論文 参考訳(メタデータ) (2024-03-11T02:17:42Z) - Towards Omni-generalizable Neural Methods for Vehicle Routing Problems [14.210085924625705]
本稿では,VRPにおけるサイズと分布の両面での一般化を考慮した,挑戦的かつ現実的な設定について検討する。
提案するメタラーニングフレームワークは,推論中に新しいタスクに迅速に適応する能力を持つモデルを効果的に学習することを可能にする。
論文 参考訳(メタデータ) (2023-05-31T06:14:34Z) - Efficient Planning in Combinatorial Action Spaces with Applications to
Cooperative Multi-Agent Reinforcement Learning [16.844525262228103]
協調型マルチエージェント強化学習では、多数のエージェントが共同でグローバル報酬関数を最適化し、エージェントの数によってアクション空間が爆発する。
最小限の要件として、モデルクラスの任意のQ-関数に対する欲求ポリシーを効率的に計算できるargmaxオラクルへのアクセスを仮定する。
そこで本研究では,全ての問題パラメータの計算と問合せを複雑化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-08T23:42:49Z) - Supervised Permutation Invariant Networks for Solving the CVRP with
Bounded Fleet Size [3.5235974685889397]
車両ルーティング問題などの最適化問題を解くための学習は、大きな計算上の利点をもたらす。
本研究では,アプリオリ固定数の車両を尊重しながら,スクラッチから完全なツアー計画を構築する強力な教師付きディープラーニングフレームワークを提案する。
効率的な後処理方式と組み合わせることで,教師付きアプローチはより高速かつ容易にトレーニングできるだけでなく,競争力のある結果が得られる。
論文 参考訳(メタデータ) (2022-01-05T10:32:18Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Composable Learning with Sparse Kernel Representations [110.19179439773578]
再生カーネルヒルベルト空間におけるスパース非パラメトリック制御系を学習するための強化学習アルゴリズムを提案する。
正規化アドバンテージ関数を通じてステートアクション関数の構造を付与することにより、このアプローチのサンプル複雑さを改善します。
2次元環境下を走行しながらレーザースキャナーを搭載したロボットの複数シミュレーションにおける障害物回避政策の学習に関するアルゴリズムの性能を実証する。
論文 参考訳(メタデータ) (2021-03-26T13:58:23Z) - Learning Vehicle Routing Problems using Policy Optimisation [4.093722933440819]
最先端のアプローチは強化学習を使ってポリシーを学習し、学習ポリシーは擬似解法として機能する。
これらのアプローチは、あるケースでは優れた性能を示しているが、ルーティング問題に典型的な大きな検索空間を考えると、ポリシーの貧弱さに早すぎる可能性がある。
より多くのポリシーを提供することで探索を支援するエントロピー正規化強化学習(ERRL)を提案する。
論文 参考訳(メタデータ) (2020-12-24T14:18:56Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - An Online Method for A Class of Distributionally Robust Optimization
with Non-Convex Objectives [54.29001037565384]
本稿では,オンライン分散ロバスト最適化(DRO)のクラスを解決するための実用的なオンライン手法を提案する。
本研究は,ネットワークの堅牢性向上のための機械学習における重要な応用を実証する。
論文 参考訳(メタデータ) (2020-06-17T20:19:25Z) - Lane-Merging Using Policy-based Reinforcement Learning and
Post-Optimization [0.0]
政策に基づく強化学習と局所最適化を組み合わせることで,2つの方法論のベストプラクティスを育成,合成する。
車両数の異なる車線変更シナリオを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2020-03-06T12:57:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。