論文の概要: Atomic Proximal Policy Optimization for Electric Robo-Taxi Dispatch and Charger Allocation
- arxiv url: http://arxiv.org/abs/2502.13392v1
- Date: Wed, 19 Feb 2025 03:05:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:00:01.299073
- Title: Atomic Proximal Policy Optimization for Electric Robo-Taxi Dispatch and Charger Allocation
- Title(参考訳): 電気式ロボタキシディスパッチとチャージャーアロケーションの原子間政策最適化
- Authors: Jim Dai, Manxi Wu, Zhanhao Zhang,
- Abstract要約: 我々は,ロビータキシーを用いた配車システムの動作を,無限の地平線を持つ離散時間平均報酬マルコフプロセスとしてモデル化する。
艦隊規模が大きくなるにつれて、システム状態のセットと艦隊派遣行動のセットが車両数とともに指数関数的に増加するため、派遣は困難である。
我々は,原子間行動分解による行動空間の低減を図る,スケーラブルな深層強化学習アルゴリズムAtomic Proximal Policy Optimization(Atomic-PPO)を導入する。
- 参考スコア(独自算出の注目度): 0.9012198585960443
- License:
- Abstract: Pioneering companies such as Waymo have deployed robo-taxi services in several U.S. cities. These robo-taxis are electric vehicles, and their operations require the joint optimization of ride matching, vehicle repositioning, and charging scheduling in a stochastic environment. We model the operations of the ride-hailing system with robo-taxis as a discrete-time, average reward Markov Decision Process with infinite horizon. As the fleet size grows, the dispatching is challenging as the set of system state and the fleet dispatching action set grow exponentially with the number of vehicles. To address this, we introduce a scalable deep reinforcement learning algorithm, called Atomic Proximal Policy Optimization (Atomic-PPO), that reduces the action space using atomic action decomposition. We evaluate our algorithm using real-world NYC for-hire vehicle data and we measure the performance using the long-run average reward achieved by the dispatching policy relative to a fluid-based reward upper bound. Our experiments demonstrate the superior performance of our Atomic-PPO compared to benchmarks. Furthermore, we conduct extensive numerical experiments to analyze the efficient allocation of charging facilities and assess the impact of vehicle range and charger speed on fleet performance.
- Abstract(参考訳): Waymoのようなパイオニア企業は、米国のいくつかの都市でロボタクシーサービスを展開している。
これらのロボタクシーは電気自動車であり、その運用には、乗馬マッチング、車両再配置、および確率的な環境での充電スケジューリングの共同最適化が必要である。
我々は,ロビータキシーを用いた配車システムの動作を,無限の地平線を持つ離散時間平均報酬マルコフ決定プロセスとしてモデル化する。
艦隊規模が大きくなるにつれて、システム状態のセットと艦隊派遣行動のセットが車両数とともに指数関数的に増加するため、派遣は困難である。
そこで本研究では,原子間行動分解を用いた行動空間の削減を目的とした,スケーラブルな深層強化学習アルゴリズムAtomic Proximal Policy Optimization(Atomic-PPO)を提案する。
提案アルゴリズムは,実世界の車両データを用いて評価し,流体ベース報酬上限に対するディスパッチポリシによって達成される長期平均報酬を用いて性能を測定した。
我々の実験はベンチマークと比較してアトミック-PPOの優れた性能を示している。
さらに,充電設備の効率的な配置を解析し,車両走行距離と充電器速度が艦隊性能に与える影響を評価するために,広範囲な数値実験を行った。
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Shared learning of powertrain control policies for vehicle fleets [3.9325957466009203]
深部強化学習(DRL)は、燃料経済やその他のパフォーマンス指標を最適化するパワートレイン制御ポリシーを現場で学習することを目的としている。
本稿では, 蒸留グループ政策を用いて, 車両群間で共有学習を行うための新しい枠組みを提案する。
ベースラインに比べて燃料経済は平均8.5%改善している。
論文 参考訳(メタデータ) (2024-04-27T13:01:05Z) - Deep-Dispatch: A Deep Reinforcement Learning-Based Vehicle Dispatch
Algorithm for Advanced Air Mobility [0.0]
我々は,営業利益を最大化するために,深層強化学習に基づくeVTOLディスパッチアルゴリズムを開発した。
提案アルゴリズムの性能評価のために,eVTOLを用いた乗客輸送シミュレーション環境を構築した。
その結果,マルチエージェントeVTOLディスパッチアルゴリズムは最適ディスパッチポリシーを近似できることがわかった。
論文 参考訳(メタデータ) (2023-12-17T20:21:49Z) - Improving Operational Efficiency In EV Ridepooling Fleets By Predictive
Exploitation of Idle Times [0.0]
Idle Time Exploitation (ITX) と呼ばれる1つのオペレーターによる配車サービスのリアルタイム予測充電方式を提案する。
ITXは、車両がアイドル状態にある期間を予測し、これらの期間を利用してエネルギーを収穫する。
グラフ畳み込みネットワーク(Graph Convolutional Networks)と線形代入アルゴリズムを用いて、車両と充電ステーションの最適なペアを考案する。
論文 参考訳(メタデータ) (2022-08-30T08:41:40Z) - Computation Rate Maximum for Mobile Terminals in UAV-assisted Wireless
Powered MEC Networks with Fairness Constraint [7.812620334783738]
本稿では,無人航空機(UAV)を利用した無線モバイルエッジコンピューティング(MEC)システムについて検討する。
移動端末のランダムな軌跡を考慮し,ソフトアクタクリティカル(SAC)に基づくUAVトラジェクトリ計画と資源配分(SAC-TR)アルゴリズムを提案する。
我々はその報酬を計算速度、公平性、目的地到達の不均一な関数として設計する。
論文 参考訳(メタデータ) (2021-09-13T08:15:41Z) - Time-Optimal Planning for Quadrotor Waypoint Flight [50.016821506107455]
立方体の作動限界における時間-最適軌道の計画は未解決の問題である。
四重項のアクチュエータポテンシャルをフル活用する解を提案する。
我々は、世界最大規模のモーションキャプチャーシステムにおいて、実世界の飛行における我々の方法を検証する。
論文 参考訳(メタデータ) (2021-08-10T09:26:43Z) - A Deep Value-network Based Approach for Multi-Driver Order Dispatching [55.36656442934531]
そこで本研究では,注文発送のための深層強化学習に基づくソリューションを提案する。
DiDiの配車プラットフォーム上で大規模なオンラインA/Bテストを実施している。
その結果,CVNetは近年提案されているディスパッチ手法よりも一貫して優れていた。
論文 参考訳(メタデータ) (2021-06-08T16:27:04Z) - Real-world Ride-hailing Vehicle Repositioning using Deep Reinforcement
Learning [52.2663102239029]
アイドルヘイリングプラットフォーム上での現実世界の車両の深層強化学習と意思決定時間計画に基づく新しい実用的枠組みを提示する。
本手法は,重み付きバッチ学習アルゴリズムを用いて乗車時の状態値関数を学習する。
配車シミュレーション環境におけるベースラインでアルゴリズムをベンチマークし、収益効率の向上における優位性を実証します。
論文 参考訳(メタデータ) (2021-03-08T05:34:05Z) - Efficient UAV Trajectory-Planning using Economic Reinforcement Learning [65.91405908268662]
UAV間でタスクを分散するための経済取引に触発された新しい強化学習アルゴリズムであるREPlannerを紹介します。
エージェントが協力し、リソースを競うことができるマルチエージェント経済ゲームとして、パス計画問題を策定します。
UAV協力によるタスク分布の計算を行うため、Swarmサイズの変化に対して非常に耐性が高い。
論文 参考訳(メタデータ) (2021-03-03T20:54:19Z) - Congestion-aware Evacuation Routing using Augmented Reality Devices [96.68280427555808]
複数の目的地間でリアルタイムに個別の避難経路を生成する屋内避難のための渋滞対応ルーティングソリューションを提案する。
建物内の混雑分布をモデル化するために、ユーザエンド拡張現実(AR)デバイスから避難者の位置を集約して、オンザフライで取得した人口密度マップを用いる。
論文 参考訳(メタデータ) (2020-04-25T22:54:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。