論文の概要: Deep Reinforcement Learning for Crowdsourced Urban Delivery: System
States Characterization, Heuristics-guided Action Choice, and
Rule-Interposing Integration
- arxiv url: http://arxiv.org/abs/2011.14430v1
- Date: Sun, 29 Nov 2020 19:50:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 09:41:58.534991
- Title: Deep Reinforcement Learning for Crowdsourced Urban Delivery: System
States Characterization, Heuristics-guided Action Choice, and
Rule-Interposing Integration
- Title(参考訳): クラウドソーシング型都市デリバリのための深層強化学習:システム状態評価、ヒューリスティックス誘導行動選択、ルール間統合
- Authors: Tanvir Ahamed, Bo Zou, Nahid Parvez Farazi and Theja Tulabandhula
- Abstract要約: 本稿では,クラウドソーシング型都市デリバリの文脈において,アドホック宅配業者に送料要求を割り当てることの問題点について検討する。
本稿では,この課題に対処するための新しい深層強化学習(DRL)アプローチを提案する。
- 参考スコア(独自算出の注目度): 0.8099700053397277
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the problem of assigning shipping requests to ad hoc
couriers in the context of crowdsourced urban delivery. The shipping requests
are spatially distributed each with a limited time window between the earliest
time for pickup and latest time for delivery. The ad hoc couriers, termed
crowdsourcees, also have limited time availability and carrying capacity. We
propose a new deep reinforcement learning (DRL)-based approach to tackling this
assignment problem. A deep Q network (DQN) algorithm is trained which entails
two salient features of experience replay and target network that enhance the
efficiency, convergence, and stability of DRL training. More importantly, this
paper makes three methodological contributions: 1) presenting a comprehensive
and novel characterization of crowdshipping system states that encompasses
spatial-temporal and capacity information of crowdsourcees and requests; 2)
embedding heuristics that leverage the information offered by the state
representation and are based on intuitive reasoning to guide specific actions
to take, to preserve tractability and enhance efficiency of training; and 3)
integrating rule-interposing to prevent repeated visiting of the same routes
and node sequences during routing improvement, thereby further enhancing the
training efficiency by accelerating learning. The effectiveness of the proposed
approach is demonstrated through extensive numerical analysis. The results show
the benefits brought by the heuristics-guided action choice and
rule-interposing in DRL training, and the superiority of the proposed approach
over existing heuristics in both solution quality, time, and scalability.
Besides the potential to improve the efficiency of crowdshipping operation
planning, the proposed approach also provides a new avenue and generic
framework for other problems in the vehicle routing context.
- Abstract(参考訳): 本稿では,クラウドソーシングによる都市配送において,アドホックな配送業者に配送要求を割り当てるという課題について検討する。
配送要求は、ピックアップの早い時間と配達の最新の時間の間に、それぞれ限られた時間枠で空間的に分散される。
crowdsourcees(クラウドソース)と呼ばれるアドホック・クーリエも、時間的可用性とキャパシティに制限がある。
本稿では,この課題に対処するための新しい深層強化学習(DRL)アプローチを提案する。
DRLトレーニングの効率性,収束性,安定性を高めるために,経験リプレイとターゲットネットワークの2つの優れた特徴を持つディープQネットワーク(DQN)アルゴリズムを訓練する。
More importantly, this paper makes three methodological contributions: 1) presenting a comprehensive and novel characterization of crowdshipping system states that encompasses spatial-temporal and capacity information of crowdsourcees and requests; 2) embedding heuristics that leverage the information offered by the state representation and are based on intuitive reasoning to guide specific actions to take, to preserve tractability and enhance efficiency of training; and 3) integrating rule-interposing to prevent repeated visiting of the same routes and node sequences during routing improvement, thereby further enhancing the training efficiency by accelerating learning.
提案手法の有効性を広範囲な数値解析により実証した。
以上の結果から,drl訓練におけるヒューリスティックス誘導行動選択と規則間相互作用の利点と,提案手法がソリューション品質,時間,スケーラビリティにおいて既存のヒューリスティックスよりも優れていることが示された。
クラウドシッピング作業計画の効率を向上させる可能性に加えて,提案手法は車両のルーティング状況における他の問題に対して,新たな経路と汎用的な枠組みを提供する。
関連論文リスト
- Real-Time Integrated Dispatching and Idle Fleet Steering with Deep Reinforcement Learning for A Meal Delivery Platform [0.0]
本研究は,食事提供プラットフォームにおけるリアルタイム注文派遣とアイドルクーリエステアリングの問題を解決することを目的としている。
強化学習(RL)に基づく戦略的二重制御フレームワークを提案する。
宅配業者間での配送効率と作業負荷分布の公平性が改善されている。
論文 参考訳(メタデータ) (2025-01-10T09:15:40Z) - Preventing Local Pitfalls in Vector Quantization via Optimal Transport [77.15924044466976]
我々はシンクホーンアルゴリズムを用いて最適な輸送問題を最適化する新しいベクトル量子化法であるOptVQを紹介する。
画像再構成タスクの実験では,OptVQが100%のコードブック利用を実現し,現在最先端のVQNを超越していることが示された。
論文 参考訳(メタデータ) (2024-12-19T18:58:14Z) - Toward Enhanced Reinforcement Learning-Based Resource Management via Digital Twin: Opportunities, Applications, and Challenges [40.73920295596231]
本稿では、ネットワークリソース管理の性能と信頼性を最適化することを目的とした、デジタルツイン(DT)強化強化学習(RL)フレームワークを提案する。
これらの課題に対処するため,総合的なDTベースのフレームワークが提案され,統一的なRLベースのリソース管理のための収束速度と性能が向上する。
提案するフレームワークは、安全な行動探索、長期的なリターンのより正確な推定、トレーニング収束の高速化、コンバージェンス性能の向上、様々なネットワーク条件へのリアルタイム適応を提供する。
論文 参考訳(メタデータ) (2024-06-12T04:14:24Z) - Dual Policy Reinforcement Learning for Real-time Rebalancing in Bike-sharing Systems [13.083156894368532]
自転車シェアリングシステムは、交通渋滞を緩和し、より健康的なライフスタイルを促進する上で重要な役割を担っている。
本研究では,車両群によるリアルタイムリバランス問題に対処するための新しいアプローチを提案する。
在庫とルーティングの決定を分離する、二重ポリシー強化学習アルゴリズムを採用している。
論文 参考訳(メタデータ) (2024-06-02T21:05:23Z) - An Efficient Learning-based Solver Comparable to Metaheuristics for the
Capacitated Arc Routing Problem [67.92544792239086]
我々は,高度メタヒューリスティックスとのギャップを著しく狭めるため,NNベースの解法を導入する。
まず,方向対応型注意モデル(DaAM)を提案する。
第2に、教師付き事前学習を伴い、堅牢な初期方針を確立するための教師付き強化学習スキームを設計する。
論文 参考訳(メタデータ) (2024-03-11T02:17:42Z) - Temporal Transfer Learning for Traffic Optimization with Coarse-grained Advisory Autonomy [4.809821883560606]
本稿では,人間ドライバーに対してリアルタイム運転アドバイザリを発行するアドバイザリ自律性について検討する。
ゼロショット転送のためのソースタスクを選択するために,TTLアルゴリズムを導入する。
様々な混合交通シナリオでアルゴリズムを検証する。
論文 参考訳(メタデータ) (2023-11-27T21:18:06Z) - DL-DRL: A double-level deep reinforcement learning approach for
large-scale task scheduling of multi-UAV [65.07776277630228]
分割・征服フレームワーク(DCF)に基づく二重レベル深層強化学習(DL-DRL)手法を提案する。
特に,上層部DRLモデルにおけるエンコーダ・デコーダ構成ポリシネットワークを設計し,タスクを異なるUAVに割り当てる。
また、低レベルDRLモデルにおける別の注意に基づくポリシーネットワークを利用して、各UAVの経路を構築し、実行されたタスク数を最大化する。
論文 参考訳(メタデータ) (2022-08-04T04:35:53Z) - Reinforcement Learning in the Wild: Scalable RL Dispatching Algorithm
Deployed in Ridehailing Marketplace [12.298997392937876]
本研究では,強化学習に基づくリアルタイムディスパッチアルゴリズムを提案する。
ディディのA/Bテストの運営下にある複数の都市でオンラインに展開され、主要な国際市場の一つで展開されている。
デプロイされたアルゴリズムは、A/Bテストによるドライバーの総収入を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-02-10T16:07:17Z) - Path Design and Resource Management for NOMA enhanced Indoor Intelligent
Robots [58.980293789967575]
通信可能な屋内知的ロボット(IR)サービスフレームワークを提案する。
室内レイアウトとチャネル状態を決定論的に記述できるレゴモデリング手法が提案されている。
調査対象の無線マップは、強化学習エージェントを訓練するための仮想環境として呼び出される。
論文 参考訳(メタデータ) (2020-11-23T21:45:01Z) - Language-guided Navigation via Cross-Modal Grounding and Alternate
Adversarial Learning [66.9937776799536]
新たなビジョン・アンド・ランゲージナビゲーション(VLN)問題は、見えない写真リアリスティック環境において、エージェントがターゲットの場所に向かうことを学習することを目的としている。
VLNの主な課題は、主に2つの側面から生じている: まず、エージェントは動的に変化する視覚環境に対応する言語命令の有意義な段落に出席する必要がある。
そこで本稿では,エージェントにテキストと視覚の対応性を追跡する機能を持たせるために,クロスモーダルグラウンドモジュールを提案する。
論文 参考訳(メタデータ) (2020-11-22T09:13:46Z) - Adaptive Serverless Learning [114.36410688552579]
本研究では,データから学習率を動的に計算できる適応型分散学習手法を提案する。
提案アルゴリズムは, 作業者数に対して線形高速化が可能であることを示す。
通信効率のオーバーヘッドを低減するため,通信効率のよい分散訓練手法を提案する。
論文 参考訳(メタデータ) (2020-08-24T13:23:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。