論文の概要: Fast Approximate Solutions using Reinforcement Learning for Dynamic
Capacitated Vehicle Routing with Time Windows
- arxiv url: http://arxiv.org/abs/2102.12088v1
- Date: Wed, 24 Feb 2021 06:30:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-25 13:43:15.131083
- Title: Fast Approximate Solutions using Reinforcement Learning for Dynamic
Capacitated Vehicle Routing with Time Windows
- Title(参考訳): 時間窓を有する動的容量車両ルーティングのための強化学習を用いた高速近似解法
- Authors: Nazneen N Sultana, Vinita Baniwal, Ansuma Basumatary, Piyush Mittal,
Supratim Ghosh, Harshad Khadilkar
- Abstract要約: 本稿では, CVRP-TWDR (Capacitated Vehicle Routing with Time Windows and Dynamic Routing) の一般クラスに対する, 本質的に並列化, 高速, 近似学習に基づくソリューションを開発する。
艦隊内の車両を分散エージェントとして考えると、強化学習(RL)ベースの適応は動的環境におけるリアルタイムルート形成の鍵となると仮定する。
- 参考スコア(独自算出の注目度): 3.5232085374661284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper develops an inherently parallelised, fast, approximate
learning-based solution to the generic class of Capacitated Vehicle Routing
with Time Windows and Dynamic Routing (CVRP-TWDR). Considering vehicles in a
fleet as decentralised agents, we postulate that using reinforcement learning
(RL) based adaptation is a key enabler for real-time route formation in a
dynamic environment. The methodology allows each agent (vehicle) to
independently evaluate the value of serving each customer, and uses a
centralised allocation heuristic to finalise the allocations based on the
generated values. We show that the solutions produced by this method on
standard datasets are significantly faster than exact formulations and
state-of-the-art meta-heuristics, while being reasonably close to optimal in
terms of solution quality. We describe experiments in both the static case
(when all customer demands and time windows are known in advance) as well as
the dynamic case (where customers can `pop up' at any time during execution).
The results with a single trained model on large, out-of-distribution test data
demonstrate the scalability and flexibility of the proposed approach.
- Abstract(参考訳): 本稿では,時間 Windows と Dynamic Routing (CVRP-TWDR) の一般的なクラスに対する並列化,高速,近似的な学習ベースソリューションを開発した。
艦隊内の車両を分散エージェントとして考えると、強化学習(RL)ベースの適応は動的環境におけるリアルタイムルート形成の鍵となると仮定する。
この手法により、各エージェント(車両)は、各顧客に役立つ価値を独立して評価することができ、生成された値に基づいて割り当てを確定するために集中アロケーションヒューリスティックを使用します。
本手法により得られた解は, 正確な定式化や最先端のメタヒューリスティックスよりもはるかに高速であり, 解品質の面では適度に最適であることを示す。
静的ケース(顧客の要求と時間ウィンドウが事前に分かっている場合)と動的ケース(顧客が実行中にいつでも‘ポップアップ’できる場合)の両方の実験について説明する。
大規模な分散テストデータに基づく単一トレーニングモデルによる結果は、提案されたアプローチのスケーラビリティと柔軟性を示しています。
関連論文リスト
- Spatial-temporal-demand clustering for solving large-scale vehicle
routing problems with time windows [0.0]
本稿では,クラスタリングを用いて顧客をグループ化するDRI(Decompose-route-improve)フレームワークを提案する。
その類似度基準は、顧客の空間的、時間的、需要データを含む。
本研究では,解答サブプロブレム間でプルーンド局所探索(LS)を適用し,全体の解法を改善する。
論文 参考訳(メタデータ) (2024-01-20T06:06:01Z) - End-to-end Lidar-Driven Reinforcement Learning for Autonomous Racing [0.0]
強化学習(Reinforcement Learning, RL)は、自動化とロボット工学の領域において、変革的なアプローチとして登場した。
本研究は、フィードフォワード生ライダーと速度データのみを用いて、レース環境をナビゲートするRLエージェントを開発し、訓練する。
エージェントのパフォーマンスは、実世界のレースシナリオで実験的に評価される。
論文 参考訳(メタデータ) (2023-09-01T07:03:05Z) - Scalable Vehicle Re-Identification via Self-Supervision [66.2562538902156]
自動車再同定は、都市規模の車両分析システムにおいて重要な要素の1つである。
車両再設計のための最先端のソリューションの多くは、既存のre-idベンチマークの精度向上に重点を置いており、計算の複雑さを無視することが多い。
推論時間に1つのネットワークのみを使用する自己教師型学習によって、シンプルで効果的なハイブリッドソリューションを提案する。
論文 参考訳(メタデータ) (2022-05-16T12:14:42Z) - On Effective Scheduling of Model-based Reinforcement Learning [53.027698625496015]
実データ比率を自動的にスケジュールするAutoMBPOというフレームワークを提案する。
本稿ではまず,政策訓練における実データの役割を理論的に分析し,実際のデータの比率を徐々に高めれば,より優れた性能が得られることを示唆する。
論文 参考訳(メタデータ) (2021-11-16T15:24:59Z) - Value Function is All You Need: A Unified Learning Framework for Ride
Hailing Platforms [57.21078336887961]
DiDi、Uber、Lyftなどの大型配車プラットフォームは、都市内の数万台の車両を1日中数百万の乗車要求に接続している。
両課題に対処するための統合価値に基づく動的学習フレームワーク(V1D3)を提案する。
論文 参考訳(メタデータ) (2021-05-18T19:22:24Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - AdaPool: A Diurnal-Adaptive Fleet Management Framework using Model-Free
Deep Reinforcement Learning and Change Point Detection [34.77250498401055]
本稿では,車いすによる乗り合い環境における日中パターンを認識・適応できる適応型モデルフリー深部強化手法を提案する。
本論文では, 配車における適応論理に加えて, 動的かつ需要に応じた車両通行者マッチングと経路計画の枠組みを提案する。
論文 参考訳(メタデータ) (2021-04-01T02:14:01Z) - Real-time End-to-End Federated Learning: An Automotive Case Study [16.79939549201032]
本稿では,新しい非同期モデルアグリゲーションプロトコルと組み合わさったリアルタイムエンドツーエンドフェデレーション学習のアプローチを提案する。
その結果,非同期フェデレーション学習は,局所エッジモデルの予測性能を大幅に向上させ,集中型機械学習法と同じ精度に到達できることがわかった。
論文 参考訳(メタデータ) (2021-03-22T14:16:16Z) - Real-world Ride-hailing Vehicle Repositioning using Deep Reinforcement
Learning [52.2663102239029]
アイドルヘイリングプラットフォーム上での現実世界の車両の深層強化学習と意思決定時間計画に基づく新しい実用的枠組みを提示する。
本手法は,重み付きバッチ学習アルゴリズムを用いて乗車時の状態値関数を学習する。
配車シミュレーション環境におけるベースラインでアルゴリズムをベンチマークし、収益効率の向上における優位性を実証します。
論文 参考訳(メタデータ) (2021-03-08T05:34:05Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。