論文の概要: Generalized Nested Rollout Policy Adaptation with Dynamic Bias for
Vehicle Routing
- arxiv url: http://arxiv.org/abs/2111.06928v1
- Date: Fri, 12 Nov 2021 20:30:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 05:43:34.121918
- Title: Generalized Nested Rollout Policy Adaptation with Dynamic Bias for
Vehicle Routing
- Title(参考訳): 車両経路の動的バイアスを考慮した一般化ネステッドロールアウトポリシー適応
- Authors: Julien Sentuc and Tristan Cazenave and Jean-Yves Lucas
- Abstract要約: GNRPAはNRPAよりも優れた性能を示している。
一部のケースでは、VRP専用のGoogle OR Toolモジュールよりもパフォーマンスがよい。
- 参考スコア(独自算出の注目度): 7.715389335184684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we present an extension of the Nested Rollout Policy Adaptation
algorithm (NRPA), namely the Generalized Nested Rollout Policy Adaptation
(GNRPA), as well as its use for solving some instances of the Vehicle Routing
Problem. We detail some results obtained on the Solomon instances set which is
a conventional benchmark for the Vehicle Routing Problem (VRP). We show that on
all instances, GNRPA performs better than NRPA. On some instances, it performs
better than the Google OR Tool module dedicated to VRP.
- Abstract(参考訳): 本稿では,Nested Rollout Policy Adaptation Algorithm (NRPA)の拡張,すなわちGeneralized Nested Rollout Policy Adaptation (GNRPA) について述べる。
車両経路問題(vrp)の従来のベンチマークであるsolomonインスタンスセットで得られた結果について詳述する。
GNRPAはNRPAよりも優れた性能を示している。
一部のケースでは、VRP専用のGoogle OR Toolモジュールよりもパフォーマンスがよい。
関連論文リスト
- RouteFinder: Towards Foundation Models for Vehicle Routing Problems [21.3310292139361]
RouteFinderは、異なる車両ルーティング問題(VRP)に対処するためのフレームワークである。
我々の中核的な考え方は、VRPの基盤モデルは、異なる属性を備えた一般化問題のサブセットとして、それぞれを扱い、変分を表現することができるべきである、ということである。
論文 参考訳(メタデータ) (2024-06-21T09:34:26Z) - Genetic Algorithms with Neural Cost Predictor for Solving Hierarchical Vehicle Routing Problems [20.684353068460375]
車両の経路決定が高次決定と連動する場合、結果の最適化問題は計算に重大な課題をもたらす。
本稿では,ニューラルコスト予測器を用いた遺伝的アルゴリズム(GANCP)という,ディープラーニングに基づく新しいアプローチを提案する。
特に,提案するニューラルネットワークは,静電容量化車両ルーティング問題を解決するHGS-CVRPオープンソースパッケージの目的値について学習する。
論文 参考訳(メタデータ) (2023-10-22T02:46:37Z) - Roulette-Wheel Selection-Based PSO Algorithm for Solving the Vehicle
Routing Problem with Time Windows [58.891409372784516]
本稿では,Roulette Wheel Method (RWPSO) を用いた新しいPSO手法を提案する。
RWPSOのSolomon VRPTWベンチマークデータセットを用いた実験は、RWPSOが文学の他の最先端アルゴリズムと競合していることを示している。
論文 参考訳(メタデータ) (2023-06-04T09:18:02Z) - Learning Logic Specifications for Soft Policy Guidance in POMCP [71.69251176275638]
部分観測可能なモンテカルロ計画(POMCP)は部分観測可能なマルコフ決定過程(POMDP)の効率的な解法である
POMCPはスパース報酬機能、すなわち最終ゴールに達するときのみ得られる報酬に悩まされる。
本稿では,POMCP実行のトレースから論理仕様を学習するために帰納的論理プログラミングを用いる。
論文 参考訳(メタデータ) (2023-03-16T09:37:10Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - Deep Policy Dynamic Programming for Vehicle Routing Problems [89.96386273895985]
本稿では,学習ニューラルの強みと動的プログラミングアルゴリズムの強みを組み合わせた深層ポリシー動的プログラミング(d pdp)を提案する。
D PDPは、例の解からエッジを予測するために訓練されたディープニューラルネットワークから派生したポリシーを使用して、DP状態空間を優先し、制限する。
本研究では,旅行セールスマン問題 (TSP) と車両ルーティング問題 (VRP) の枠組みを評価し,ニューラルネットワークが(制限された)DPアルゴリズムの性能を向上させることを示す。
論文 参考訳(メタデータ) (2021-02-23T15:33:57Z) - Stabilized Nested Rollout Policy Adaptation [7.715389335184684]
Nested Rollout Policy Adaptation(NRPA)は、モンテカルロのシングルプレイヤーゲームのための検索アルゴリズムです。
アルゴリズムの安定性を向上させるため,NRPAの修正を提案する。
論文 参考訳(メタデータ) (2021-01-10T15:05:14Z) - Learning Vehicle Routing Problems using Policy Optimisation [4.093722933440819]
最先端のアプローチは強化学習を使ってポリシーを学習し、学習ポリシーは擬似解法として機能する。
これらのアプローチは、あるケースでは優れた性能を示しているが、ルーティング問題に典型的な大きな検索空間を考えると、ポリシーの貧弱さに早すぎる可能性がある。
より多くのポリシーを提供することで探索を支援するエントロピー正規化強化学習(ERRL)を提案する。
論文 参考訳(メタデータ) (2020-12-24T14:18:56Z) - A Feedback Scheme to Reorder a Multi-Agent Execution Schedule by
Persistently Optimizing a Switchable Action Dependency Graph [65.70656676650391]
複数の自動誘導車両 (AGV) が共通作業空間をナビゲートし, 様々な作業を行う。
一つのアプローチは、Action Dependency Graph (ADG)を構築し、そのルートに沿って進むとAGVの順序を符号化する。
ワークスペースが人間やサードパーティロボットのような動的障害によって共有されている場合、AGVは大きな遅延を経験することができる。
本稿では,各AGVの経路完了時間を最小限に抑えるために,非循環ADGを繰り返し修正するオンライン手法を提案する。
論文 参考訳(メタデータ) (2020-10-11T14:39:50Z) - Generalized Nested Rollout Policy Adaptation [4.38602607138044]
Nested Rollout Policy Adaptation (NRPA) はモンテカルロのシングルプレイヤーゲーム検索アルゴリズムである。
本稿では、NRPAを温度とバイアスで一般化し、理論的にアルゴリズムを分析することを提案する。
論文 参考訳(メタデータ) (2020-03-22T23:12:18Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。