論文の概要: Real-world Ride-hailing Vehicle Repositioning using Deep Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2103.04555v1
- Date: Mon, 8 Mar 2021 05:34:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-09 15:52:20.205595
- Title: Real-world Ride-hailing Vehicle Repositioning using Deep Reinforcement
Learning
- Title(参考訳): 深層強化学習による現実世界のライドヘイリング車両配置
- Authors: Yan Jiao, Xiaocheng Tang, Zhiwei Qin, Shuaiji Li, Fan Zhang, Hongtu
Zhu and Jieping Ye
- Abstract要約: アイドルヘイリングプラットフォーム上での現実世界の車両の深層強化学習と意思決定時間計画に基づく新しい実用的枠組みを提示する。
本手法は,重み付きバッチ学習アルゴリズムを用いて乗車時の状態値関数を学習する。
配車シミュレーション環境におけるベースラインでアルゴリズムをベンチマークし、収益効率の向上における優位性を実証します。
- 参考スコア(独自算出の注目度): 52.2663102239029
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present a new practical framework based on deep reinforcement learning and
decision-time planning for real-world vehicle repositioning on ride-hailing (a
type of mobility-on-demand, MoD) platforms. Our approach learns the
spatiotemporal state-value function using a batch training algorithm with deep
value networks. The optimal repositioning action is generated on-demand through
value-based policy search, which combines planning and bootstrapping with the
value networks. For the large-fleet problems, we develop several algorithmic
features that we incorporate into our framework and that we demonstrate to
induce coordination among the algorithmically-guided vehicles. We benchmark our
algorithm with baselines in a ride-hailing simulation environment to
demonstrate its superiority in improving income efficiency meausred by
income-per-hour. We have also designed and run a real-world experiment program
with regular drivers on a major ride-hailing platform. We have observed
significantly positive results on key metrics comparing our method with
experienced drivers who performed idle-time repositioning based on their own
expertise.
- Abstract(参考訳): 乗用車(モビリティ・オン・デマンドの一種であるMoD)プラットフォーム上での現実世界の車両再配置のための深層強化学習と意思決定時間計画に基づく新しい実用的なフレームワークを提示する。
深値ネットワークを用いたバッチトレーニングアルゴリズムを用いて時空間状態値関数を学習する。
最適なリポジショニングアクションは、計画とブートストラップとバリューネットワークを結合したバリューベースポリシー検索を通じてオンデマンドで生成される。
大フリート問題に対して,我々は,我々のフレームワークに組み込んだいくつかのアルゴリズム機能を開発し,アルゴリズムが誘導する車両間の協調を誘導することを示す。
本研究では,このアルゴリズムを配車シミュレーション環境のベースラインでベンチマークし,時間当たりの収入効率向上の優位性を示す。
また、主要な配車プラットフォームで通常のドライバーと実世界の実験プログラムを設計および実行しています。
本手法と,自身の専門性に基づいてアイドルタイムのリポジショニングを行った経験者を比較した重要指標について,有意にポジティブな結果が得られた。
関連論文リスト
- Dual Policy Reinforcement Learning for Real-time Rebalancing in Bike-sharing Systems [13.083156894368532]
自転車シェアリングシステムは、交通渋滞を緩和し、より健康的なライフスタイルを促進する上で重要な役割を担っている。
本研究では,車両群によるリアルタイムリバランス問題に対処するための新しいアプローチを提案する。
在庫とルーティングの決定を分離する、二重ポリシー強化学習アルゴリズムを採用している。
論文 参考訳(メタデータ) (2024-06-02T21:05:23Z) - Integration of Reinforcement Learning Based Behavior Planning With
Sampling Based Motion Planning for Automated Driving [0.5801044612920815]
本研究では,高度行動計画のための訓練された深層強化学習ポリシーを用いる方法を提案する。
私たちの知る限りでは、この研究は、この方法で深層強化学習を適用した最初のものである。
論文 参考訳(メタデータ) (2023-04-17T13:49:55Z) - Tackling Real-World Autonomous Driving using Deep Reinforcement Learning [63.3756530844707]
本研究では,加速と操舵角度を予測するニューラルネットワークを学習するモデルレスディープ強化学習プランナを提案する。
実際の自動運転車にシステムをデプロイするために、我々は小さなニューラルネットワークで表されるモジュールも開発する。
論文 参考訳(メタデータ) (2022-07-05T16:33:20Z) - Model-based Decision Making with Imagination for Autonomous Parking [50.41076449007115]
提案アルゴリズムは,駐車前に結果を予測するための想像モデル,高速探索ランダムツリー(RRT)の改良,経路平滑化モジュールの3つの部分から構成される。
われわれのアルゴリズムは、実際のキネマティックな車両モデルに基づいており、実際の自動運転車にアルゴリズムを適用するのにより適している。
アルゴリズムの有効性を評価するため,3つの異なる駐車シナリオにおいて,従来のRTとアルゴリズムを比較した。
論文 参考訳(メタデータ) (2021-08-25T18:24:34Z) - A Deep Value-network Based Approach for Multi-Driver Order Dispatching [55.36656442934531]
そこで本研究では,注文発送のための深層強化学習に基づくソリューションを提案する。
DiDiの配車プラットフォーム上で大規模なオンラインA/Bテストを実施している。
その結果,CVNetは近年提案されているディスパッチ手法よりも一貫して優れていた。
論文 参考訳(メタデータ) (2021-06-08T16:27:04Z) - Value Function is All You Need: A Unified Learning Framework for Ride
Hailing Platforms [57.21078336887961]
DiDi、Uber、Lyftなどの大型配車プラットフォームは、都市内の数万台の車両を1日中数百万の乗車要求に接続している。
両課題に対処するための統合価値に基づく動的学習フレームワーク(V1D3)を提案する。
論文 参考訳(メタデータ) (2021-05-18T19:22:24Z) - Learning to drive from a world on rails [78.28647825246472]
モデルベースアプローチによって,事前記録された運転ログからインタラクティブな視覚ベースの運転方針を学習する。
世界の前方モデルは、あらゆる潜在的な運転経路の結果を予測する運転政策を監督する。
提案手法は,carla リーダボードにまずランク付けし,40 倍少ないデータを用いて25%高い運転スコアを得た。
論文 参考訳(メタデータ) (2021-05-03T05:55:30Z) - Experience-Based Heuristic Search: Robust Motion Planning with Deep
Q-Learning [0.0]
本稿では,Deep Q-Networkの形式でのエクスペリエンスを,探索アルゴリズムの最適ポリシとして統合する方法について述べる。
本手法は、自動運転車分野における強化学習に基づく計画の適用性について、さらなる研究を奨励する可能性がある。
論文 参考訳(メタデータ) (2021-02-05T12:08:11Z) - Optimising Stochastic Routing for Taxi Fleets with Model Enhanced
Reinforcement Learning [32.322091943124555]
我々は、道路配車サービスのための大規模な車両群のためのルーティングポリシーを最適化することを目指している。
モデルベースディスパッチアルゴリズム,モデルフリー強化学習アルゴリズム,新しいハイブリッドアルゴリズムが提案されている。
論文 参考訳(メタデータ) (2020-10-22T13:55:26Z) - Efficient Sampling-Based Maximum Entropy Inverse Reinforcement Learning
with Application to Autonomous Driving [35.44498286245894]
本稿では,効率的なサンプリングに基づく最大エントロピー逆強化学習(IRL)アルゴリズムを提案する。
提案アルゴリズムは,非対話的シナリオと対話的シナリオの両方を含む実運転データに基づいて評価する。
論文 参考訳(メタデータ) (2020-06-22T01:41:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。