論文の概要: DROP: Deep relocating option policy for optimal ride-hailing vehicle
repositioning
- arxiv url: http://arxiv.org/abs/2109.04149v1
- Date: Thu, 9 Sep 2021 10:20:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-10 14:25:53.968804
- Title: DROP: Deep relocating option policy for optimal ride-hailing vehicle
repositioning
- Title(参考訳): DROP:最適な配車車両配置のためのDeep relocating option Policy
- Authors: Xinwu Qian, Shuocheng Guo, Vaneet Aggarwal
- Abstract要約: 配車システムにおいて、空席車両の最適移動は、艦隊のアイドリング時間を著しく短縮し、供給需要分布のバランスをとることができる。
本研究では,過供給地域から逃れるための車両エージェントを監督するDep relocating option Policy (DROP)を提案する。
本稿では,ハイレベル転位ポリシと低レベルDROPのセットをトレーニングする階層型学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 36.31945021412277
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In a ride-hailing system, an optimal relocation of vacant vehicles can
significantly reduce fleet idling time and balance the supply-demand
distribution, enhancing system efficiency and promoting driver satisfaction and
retention. Model-free deep reinforcement learning (DRL) has been shown to
dynamically learn the relocating policy by actively interacting with the
intrinsic dynamics in large-scale ride-hailing systems. However, the issues of
sparse reward signals and unbalanced demand and supply distribution place
critical barriers in developing effective DRL models. Conventional exploration
strategy (e.g., the $\epsilon$-greedy) may barely work under such an
environment because of dithering in low-demand regions distant from
high-revenue regions. This study proposes the deep relocating option policy
(DROP) that supervises vehicle agents to escape from oversupply areas and
effectively relocate to potentially underserved areas. We propose to learn the
Laplacian embedding of a time-expanded relocation graph, as an approximation
representation of the system relocation policy. The embedding generates
task-agnostic signals, which in combination with task-dependent signals,
constitute the pseudo-reward function for generating DROPs. We present a
hierarchical learning framework that trains a high-level relocation policy and
a set of low-level DROPs. The effectiveness of our approach is demonstrated
using a custom-built high-fidelity simulator with real-world trip record data.
We report that DROP significantly improves baseline models with 15.7% more
hourly revenue and can effectively resolve the dithering issue in low-demand
areas.
- Abstract(参考訳): 配車システムにおいて、空席車両の最適移動は、車両のアイドリング時間を著しく短縮し、供給需要分布のバランスを保ち、システム効率を向上し、運転者の満足と維持を促進することができる。
モデルフリー深部強化学習(DRL)は,大規模配車システムにおける本質的なダイナミクスと積極的に相互作用することで,移動政策を動的に学習する。
しかし、十分な報酬信号と不均衡な需要と供給分布の問題は、効果的なDRLモデルの開発において重要な障壁となっている。
従来の探査戦略(例えば$\epsilon$-greedy)は、高リターンな地域から離れた低需要の地域でのダイザリングのため、そのような環境下ではほとんど機能しない。
本研究は,過供給地域から脱出する車両エージェントを監督し,潜在的に保全されていない地域へ効果的に移動させる,深層移動オプションポリシー(DROP)を提案する。
本稿では,システム転位ポリシーの近似表現として,時間拡張再配置グラフのラプラシアン埋め込みを学習することを提案する。
埋め込みは、タスク依存信号と組み合わせて、DROPを生成する擬逆関数を構成するタスク非依存信号を生成する。
本稿では,ハイレベル転位ポリシと低レベルDROPのセットをトレーニングする階層型学習フレームワークを提案する。
本手法の有効性を実世界旅行記録データを用いたカスタム構築高忠実度シミュレータを用いて実証した。
我々は,DROPが時間収益15.7%のベースラインモデルを大幅に改善し,低需要地域でのディザリング問題を効果的に解決できることを報告した。
関連論文リスト
- End-to-end Driving in High-Interaction Traffic Scenarios with Reinforcement Learning [24.578178308010912]
これらの問題に対処するために,Ranmble というエンドツーエンドモデルベース RL アルゴリズムを提案する。
環境のダイナミックスモデルを学ぶことで、Rambleは今後のトラフィックイベントを予測し、より情報に富んだ戦略的決定を下すことができる。
Rambleは、CARLA Leaderboard 2.0におけるルート完了率と運転スコアに関する最先端のパフォーマンスを達成し、複雑でダイナミックな交通状況を管理する上での有効性を示している。
論文 参考訳(メタデータ) (2024-10-03T06:45:59Z) - Reconfigurable Intelligent Surface Assisted VEC Based on Multi-Agent Reinforcement Learning [33.620752444256716]
車両のエッジコンピューティングは、タスクをローカルに実行したり、近くのエッジデバイスにオフロードすることで、高強度タスクを実行することができる。
リアシスト(RIS)は、車両通信をサポートし、代替の通信経路を提供するために導入された。
改良型マルチエージェント・ディープ決定性勾配ポリシーを応用した新しい深層強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-17T08:35:32Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Benchmarking Safe Deep Reinforcement Learning in Aquatic Navigation [78.17108227614928]
本研究では,水文ナビゲーションに着目した安全強化学習のためのベンチマーク環境を提案する。
価値に基づく政策段階の深層強化学習(DRL)について考察する。
また,学習したモデルの振る舞いを所望の特性の集合上で検証する検証戦略を提案する。
論文 参考訳(メタデータ) (2021-12-16T16:53:56Z) - Learning Space Partitions for Path Planning [54.475949279050596]
PlaLaMは2次元ナビゲーションタスクにおける既存の経路計画手法よりも優れており、特に難解な局所最適化の存在下では優れている。
これらは高マルチモーダルな実世界のタスクに移行し、コンパイラフェーズでは最大245%、分子設計では最大0.4の強いベースラインを0-1スケールで上回ります。
論文 参考訳(メタデータ) (2021-06-19T18:06:11Z) - A Modular and Transferable Reinforcement Learning Framework for the
Fleet Rebalancing Problem [2.299872239734834]
モデルフリー強化学習(RL)に基づく艦隊再バランスのためのモジュラーフレームワークを提案する。
動作領域のグリッド上の分布としてRL状態とアクション空間を定式化し,フレームワークをスケーラブルにする。
実世界の旅行データとネットワークデータを用いた数値実験は、このアプローチがベースライン法よりもいくつかの異なる利点があることを実証している。
論文 参考訳(メタデータ) (2021-05-27T16:32:28Z) - AdaPool: A Diurnal-Adaptive Fleet Management Framework using Model-Free
Deep Reinforcement Learning and Change Point Detection [34.77250498401055]
本稿では,車いすによる乗り合い環境における日中パターンを認識・適応できる適応型モデルフリー深部強化手法を提案する。
本論文では, 配車における適応論理に加えて, 動的かつ需要に応じた車両通行者マッチングと経路計画の枠組みを提案する。
論文 参考訳(メタデータ) (2021-04-01T02:14:01Z) - Real-world Ride-hailing Vehicle Repositioning using Deep Reinforcement
Learning [52.2663102239029]
アイドルヘイリングプラットフォーム上での現実世界の車両の深層強化学習と意思決定時間計画に基づく新しい実用的枠組みを提示する。
本手法は,重み付きバッチ学習アルゴリズムを用いて乗車時の状態値関数を学習する。
配車シミュレーション環境におけるベースラインでアルゴリズムをベンチマークし、収益効率の向上における優位性を実証します。
論文 参考訳(メタデータ) (2021-03-08T05:34:05Z) - Trajectory Planning for Autonomous Vehicles Using Hierarchical
Reinforcement Learning [21.500697097095408]
不確実かつ動的条件下で安全な軌道を計画することは、自律運転問題を著しく複雑にする。
RRT(Rapidly Exploring Random Trees)のような現在のサンプリングベース手法は、高い計算コストのため、この問題には理想的ではない。
軌道計画のための階層型強化学習構造とPID(Proportional-Integral-Derivative)コントローラを提案する。
論文 参考訳(メタデータ) (2020-11-09T20:49:54Z) - Optimization-driven Deep Reinforcement Learning for Robust Beamforming
in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。
我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。
過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T01:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。