論文の概要: DRL4Route: A Deep Reinforcement Learning Framework for Pick-up and
Delivery Route Prediction
- arxiv url: http://arxiv.org/abs/2307.16246v1
- Date: Sun, 30 Jul 2023 14:50:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 16:49:55.185261
- Title: DRL4Route: A Deep Reinforcement Learning Framework for Pick-up and
Delivery Route Prediction
- Title(参考訳): DRL4Route: ピックアップおよびデリバリ経路予測のための深層強化学習フレームワーク
- Authors: Xiaowei Mao, Haomin Wen, Hengrui Zhang, Huaiyu Wan, Lixia Wu, Jianbin
Zheng, Haoyuan Hu, Youfang Lin
- Abstract要約: ルート予測タスクにRL(Reinforcement Learning)を一般化する最初の試みとして,DRL4Routeと呼ばれる新しいRLベースのフレームワークを提案する。
DRL4Routeは既存のディープラーニングモデルを強化するためのプラグイン・アンド・プレイコンポーネントとして機能する。
これは、一般化アドバンテージ推定器を備えたアクター批判アーキテクチャに従う。
- 参考スコア(独自算出の注目度): 21.335721424944257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pick-up and Delivery Route Prediction (PDRP), which aims to estimate the
future service route of a worker given his current task pool, has received
rising attention in recent years. Deep neural networks based on supervised
learning have emerged as the dominant model for the task because of their
powerful ability to capture workers' behavior patterns from massive historical
data. Though promising, they fail to introduce the non-differentiable test
criteria into the training process, leading to a mismatch in training and test
criteria. Which considerably trims down their performance when applied in
practical systems. To tackle the above issue, we present the first attempt to
generalize Reinforcement Learning (RL) to the route prediction task, leading to
a novel RL-based framework called DRL4Route. It combines the behavior-learning
abilities of previous deep learning models with the non-differentiable
objective optimization ability of reinforcement learning. DRL4Route can serve
as a plug-and-play component to boost the existing deep learning models. Based
on the framework, we further implement a model named DRL4Route-GAE for PDRP in
logistic service. It follows the actor-critic architecture which is equipped
with a Generalized Advantage Estimator that can balance the bias and variance
of the policy gradient estimates, thus achieving a more optimal policy.
Extensive offline experiments and the online deployment show that DRL4Route-GAE
improves Location Square Deviation (LSD) by 0.9%-2.7%, and Accuracy@3 (ACC@3)
by 2.4%-3.2% over existing methods on the real-world dataset.
- Abstract(参考訳): 現在のタスクプールから作業者の将来のサービス経路を推定することを目的としたピックアップ・アンド・デリバリ・ルート予測(pdrp)が近年注目を集めている。
教師付き学習に基づくディープニューラルネットワークは、巨大な履歴データから労働者の行動パターンをキャプチャする能力を持つため、タスクの主要なモデルとなっている。
有望ではあるが、トレーニングプロセスに区別不能なテスト基準を導入することに失敗し、トレーニングとテスト基準のミスマッチを引き起こした。
実用システムに適用すると、パフォーマンスが大幅に低下します。
本稿では,経路予測タスクへの強化学習(rl)を一般化する最初の試みとして,新しいrlベースのフレームワークであるdrl4routeを提案する。
従来のディープラーニングモデルの行動学習能力と強化学習の非微分的客観的最適化能力とを組み合わせる。
drl4routeは、既存のディープラーニングモデルを強化するためのプラグアンドプレイコンポーネントとして機能する。
このフレームワークに基づいて,ロジスティックサービスにおけるPDRPのためのDRL4Route-GAEモデルをさらに実装する。
これは、ポリシー勾配推定のバイアスと分散のバランスをとることができる一般化アドバンテージ推定器を備えたアクター批判アーキテクチャに従い、より最適なポリシーを達成する。
大規模なオフライン実験とオンライン展開により、DRL4Route-GAEはロケーションスクエア偏差(LSD)を0.9%-2.7%改善し、Accuracy@3(ACC@3)を2.4%-3.2%改善した。
関連論文リスト
- ODRL: A Benchmark for Off-Dynamics Reinforcement Learning [59.72217833812439]
我々は、オフダイナミックスRL法を評価するための最初のベンチマークであるODRLを紹介する。
ODRLには、4つの実験的な設定が含まれており、ソースドメインとターゲットドメインはオンラインまたはオフラインにすることができる。
我々は、様々な力学シフトにまたがる普遍的な優位性を持つ手法が存在しないことを示す広範なベンチマーク実験を行った。
論文 参考訳(メタデータ) (2024-10-28T05:29:38Z) - End-to-End Autonomous Driving without Costly Modularization and 3D Manual Annotation [34.070813293944944]
視覚に基づくエンドツーエンド自動運転(E2EAD)のためのUADを提案する。
私たちのモチベーションは、現在のE2EADモデルが依然として典型的な駆動スタックのモジュラーアーキテクチャを模倣していることに起因しています。
我々のUADは、NUScenesにおける平均衝突速度において、UniADに対して38.7%の相対的な改善を達成し、CARLAのCown05 Longベンチマークの駆動スコアにおいて、VADを41.32ポイント上回っている。
論文 参考訳(メタデータ) (2024-06-25T16:12:52Z) - Robust and Explainable Fine-Grained Visual Classification with Transfer Learning: A Dual-Carriageway Framework [0.799543372823325]
我々は、Dual-Carriageway Framework (DCF) という自動ベストスーツトレーニングソリューション検索フレームワークを提案する。
3つの畳み込みニューラルネットワーク(ResNet18、ResNet34、Inception-v3)を用いてDCFの有効性を検証する。
その結果、既存のデータセットと新しいデータセットでそれぞれ2.13%、1.23%の微調整パスのパフォーマンスが向上した。
論文 参考訳(メタデータ) (2024-05-09T15:41:10Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning
Disentangled Reasoning [101.56342075720588]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - Data-efficient Deep Reinforcement Learning for Vehicle Trajectory
Control [6.144517901919656]
強化学習(RL)は、古典的なアプローチよりも優れた制御性能を達成することを約束する。
SAC(Soft-actor critic)のような標準RLアプローチでは、大量のトレーニングデータを収集する必要がある。
近年開発されたディープRL法を車両軌道制御に適用した。
論文 参考訳(メタデータ) (2023-11-30T09:38:59Z) - Pre-training on Synthetic Driving Data for Trajectory Prediction [61.520225216107306]
軌道予測におけるデータ不足の問題を緩和するパイプラインレベルのソリューションを提案する。
我々は、駆動データを生成するためにHDマップ拡張とトラジェクトリ合成を採用し、それらを事前学習することで表現を学習する。
我々は、データ拡張と事前学習戦略の有効性を実証するための広範な実験を行う。
論文 参考訳(メタデータ) (2023-09-18T19:49:22Z) - Avoidance Navigation Based on Offline Pre-Training Reinforcement
Learning [0.0]
本稿では,移動ロボットの地図を使わずに回避ナビゲーションを行うための,事前学習型深部強化学習(DRL)を提案する。
早期の非効率なランダム探索を高速化するために,効率的なオフライン学習戦略を提案する。
DRLモデルは, 異なる環境下で普遍的な汎用能力を有することを示した。
論文 参考訳(メタデータ) (2023-08-03T06:19:46Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Reinforcement Learning in the Wild: Scalable RL Dispatching Algorithm
Deployed in Ridehailing Marketplace [12.298997392937876]
本研究では,強化学習に基づくリアルタイムディスパッチアルゴリズムを提案する。
ディディのA/Bテストの運営下にある複数の都市でオンラインに展開され、主要な国際市場の一つで展開されている。
デプロイされたアルゴリズムは、A/Bテストによるドライバーの総収入を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-02-10T16:07:17Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。