論文の概要: Deep Reinforcement Learning for Crowdsourced Urban Delivery: System
States Characterization, Heuristics-guided Action Choice, and
Rule-Interposing Integration
- arxiv url: http://arxiv.org/abs/2011.14430v1
- Date: Sun, 29 Nov 2020 19:50:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 09:41:58.534991
- Title: Deep Reinforcement Learning for Crowdsourced Urban Delivery: System
States Characterization, Heuristics-guided Action Choice, and
Rule-Interposing Integration
- Title(参考訳): クラウドソーシング型都市デリバリのための深層強化学習:システム状態評価、ヒューリスティックス誘導行動選択、ルール間統合
- Authors: Tanvir Ahamed, Bo Zou, Nahid Parvez Farazi and Theja Tulabandhula
- Abstract要約: 本稿では,クラウドソーシング型都市デリバリの文脈において,アドホック宅配業者に送料要求を割り当てることの問題点について検討する。
本稿では,この課題に対処するための新しい深層強化学習(DRL)アプローチを提案する。
- 参考スコア(独自算出の注目度): 0.8099700053397277
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the problem of assigning shipping requests to ad hoc
couriers in the context of crowdsourced urban delivery. The shipping requests
are spatially distributed each with a limited time window between the earliest
time for pickup and latest time for delivery. The ad hoc couriers, termed
crowdsourcees, also have limited time availability and carrying capacity. We
propose a new deep reinforcement learning (DRL)-based approach to tackling this
assignment problem. A deep Q network (DQN) algorithm is trained which entails
two salient features of experience replay and target network that enhance the
efficiency, convergence, and stability of DRL training. More importantly, this
paper makes three methodological contributions: 1) presenting a comprehensive
and novel characterization of crowdshipping system states that encompasses
spatial-temporal and capacity information of crowdsourcees and requests; 2)
embedding heuristics that leverage the information offered by the state
representation and are based on intuitive reasoning to guide specific actions
to take, to preserve tractability and enhance efficiency of training; and 3)
integrating rule-interposing to prevent repeated visiting of the same routes
and node sequences during routing improvement, thereby further enhancing the
training efficiency by accelerating learning. The effectiveness of the proposed
approach is demonstrated through extensive numerical analysis. The results show
the benefits brought by the heuristics-guided action choice and
rule-interposing in DRL training, and the superiority of the proposed approach
over existing heuristics in both solution quality, time, and scalability.
Besides the potential to improve the efficiency of crowdshipping operation
planning, the proposed approach also provides a new avenue and generic
framework for other problems in the vehicle routing context.
- Abstract(参考訳): 本稿では,クラウドソーシングによる都市配送において,アドホックな配送業者に配送要求を割り当てるという課題について検討する。
配送要求は、ピックアップの早い時間と配達の最新の時間の間に、それぞれ限られた時間枠で空間的に分散される。
crowdsourcees(クラウドソース)と呼ばれるアドホック・クーリエも、時間的可用性とキャパシティに制限がある。
本稿では,この課題に対処するための新しい深層強化学習(DRL)アプローチを提案する。
DRLトレーニングの効率性,収束性,安定性を高めるために,経験リプレイとターゲットネットワークの2つの優れた特徴を持つディープQネットワーク(DQN)アルゴリズムを訓練する。
More importantly, this paper makes three methodological contributions: 1) presenting a comprehensive and novel characterization of crowdshipping system states that encompasses spatial-temporal and capacity information of crowdsourcees and requests; 2) embedding heuristics that leverage the information offered by the state representation and are based on intuitive reasoning to guide specific actions to take, to preserve tractability and enhance efficiency of training; and 3) integrating rule-interposing to prevent repeated visiting of the same routes and node sequences during routing improvement, thereby further enhancing the training efficiency by accelerating learning.
提案手法の有効性を広範囲な数値解析により実証した。
以上の結果から,drl訓練におけるヒューリスティックス誘導行動選択と規則間相互作用の利点と,提案手法がソリューション品質,時間,スケーラビリティにおいて既存のヒューリスティックスよりも優れていることが示された。
クラウドシッピング作業計画の効率を向上させる可能性に加えて,提案手法は車両のルーティング状況における他の問題に対して,新たな経路と汎用的な枠組みを提供する。
関連論文リスト
- An Efficient Learning-based Solver Comparable to Metaheuristics for the
Capacitated Arc Routing Problem [67.92544792239086]
我々は,高度メタヒューリスティックスとのギャップを著しく狭めるため,NNベースの解法を導入する。
まず,方向対応型注意モデル(DaAM)を提案する。
第2に、教師付き事前学習を伴い、堅牢な初期方針を確立するための教師付き強化学習スキームを設計する。
論文 参考訳(メタデータ) (2024-03-11T02:17:42Z) - Deep Reinforcement Learning for Picker Routing Problem in Warehousing [0.6562256987706128]
本稿では、強化学習を用いて学習したピッカーツアーをモデル化するための注意に基づくニューラルネットワークを提案する。
提案手法の重要な利点は,経路の複雑さを低減できるオプションを提供することである。
論文 参考訳(メタデータ) (2024-02-05T21:25:45Z) - Unlocking Carbon Reduction Potential with Reinforcement Learning for the
Three-Dimensional Loading Capacitated Vehicle Routing Problem [54.43397200631224]
効率を上げるためのソリューションとして、協調車両ルーティングが提案されている。
現在の運用研究手法は、問題の大きさを増大させる非線形スケーリングに悩まされている。
約線形時間で3次元負荷容量化車両ルーティング問題を解くための強化学習モデルを開発した。
論文 参考訳(メタデータ) (2023-07-22T18:05:28Z) - DL-DRL: A double-level deep reinforcement learning approach for
large-scale task scheduling of multi-UAV [65.07776277630228]
分割・征服フレームワーク(DCF)に基づく二重レベル深層強化学習(DL-DRL)手法を提案する。
特に,上層部DRLモデルにおけるエンコーダ・デコーダ構成ポリシネットワークを設計し,タスクを異なるUAVに割り当てる。
また、低レベルDRLモデルにおける別の注意に基づくポリシーネットワークを利用して、各UAVの経路を構築し、実行されたタスク数を最大化する。
論文 参考訳(メタデータ) (2022-08-04T04:35:53Z) - Lean Evolutionary Reinforcement Learning by Multitasking with Importance
Sampling [20.9680985132322]
本稿では,新しいニューロ進化的マルチタスク(NuEMT)アルゴリズムを導入し,一連の補助タスクからターゲット(フル長)RLタスクへ情報を伝達する。
我々は、NuEMTアルゴリズムがデータ-リーン進化RLであり、高価なエージェント-環境相互作用データ要求を減らすことを実証する。
論文 参考訳(メタデータ) (2022-03-21T10:06:16Z) - Reinforcement Learning in the Wild: Scalable RL Dispatching Algorithm
Deployed in Ridehailing Marketplace [12.298997392937876]
本研究では,強化学習に基づくリアルタイムディスパッチアルゴリズムを提案する。
ディディのA/Bテストの運営下にある複数の都市でオンラインに展開され、主要な国際市場の一つで展開されている。
デプロイされたアルゴリズムは、A/Bテストによるドライバーの総収入を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-02-10T16:07:17Z) - Cellular traffic offloading via Opportunistic Networking with
Reinforcement Learning [0.5758073912084364]
本稿では,Reinforcement Learningフレームワークに基づく適応型オフロードソリューションを提案する。
Actor-Critic と Q-Learning の2つのよく知られた学習アルゴリズムの性能を評価し比較する。
我々のソリューションは、他の最先端のアプローチよりも高いレベルのオフロードを実現する。
論文 参考訳(メタデータ) (2021-10-01T13:34:12Z) - Path Design and Resource Management for NOMA enhanced Indoor Intelligent
Robots [58.980293789967575]
通信可能な屋内知的ロボット(IR)サービスフレームワークを提案する。
室内レイアウトとチャネル状態を決定論的に記述できるレゴモデリング手法が提案されている。
調査対象の無線マップは、強化学習エージェントを訓練するための仮想環境として呼び出される。
論文 参考訳(メタデータ) (2020-11-23T21:45:01Z) - Language-guided Navigation via Cross-Modal Grounding and Alternate
Adversarial Learning [66.9937776799536]
新たなビジョン・アンド・ランゲージナビゲーション(VLN)問題は、見えない写真リアリスティック環境において、エージェントがターゲットの場所に向かうことを学習することを目的としている。
VLNの主な課題は、主に2つの側面から生じている: まず、エージェントは動的に変化する視覚環境に対応する言語命令の有意義な段落に出席する必要がある。
そこで本稿では,エージェントにテキストと視覚の対応性を追跡する機能を持たせるために,クロスモーダルグラウンドモジュールを提案する。
論文 参考訳(メタデータ) (2020-11-22T09:13:46Z) - Adaptive Serverless Learning [114.36410688552579]
本研究では,データから学習率を動的に計算できる適応型分散学習手法を提案する。
提案アルゴリズムは, 作業者数に対して線形高速化が可能であることを示す。
通信効率のオーバーヘッドを低減するため,通信効率のよい分散訓練手法を提案する。
論文 参考訳(メタデータ) (2020-08-24T13:23:02Z) - Stacked Auto Encoder Based Deep Reinforcement Learning for Online
Resource Scheduling in Large-Scale MEC Networks [44.40722828581203]
オンラインリソーススケジューリングフレームワークは、IoT(Internet of Things)の全ユーザに対して、重み付けされたタスクレイテンシの総和を最小化するために提案されている。
以下を含む深層強化学習(DRL)に基づく解法を提案する。
DRLがポリシーネットワークをトレーニングし、最適なオフロードポリシーを見つけるのを支援するために、保存および優先されたエクスペリエンスリプレイ(2p-ER)を導入する。
論文 参考訳(メタデータ) (2020-01-24T23:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。