論文の概要: Scalable Deep Reinforcement Learning for Ride-Hailing
- arxiv url: http://arxiv.org/abs/2009.14679v1
- Date: Sun, 27 Sep 2020 20:07:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 03:59:20.724319
- Title: Scalable Deep Reinforcement Learning for Ride-Hailing
- Title(参考訳): Ride-Hailingのためのスケーラブルな深層強化学習
- Authors: Jiekun Feng, Mark Gluzman, J. G. Dai
- Abstract要約: Didi Chuxing、Lyft、Uberといったライドシェアサービスでは、毎日数千台の車が乗車要求に応えている。
配車サービスシステムのマルコフ決定プロセス(MDP)モデルを強化学習(RL)問題とみなす。
本稿では,ドライバにタスクを逐次割り当てることにより,MDP動作の特殊分解を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ride-hailing services, such as Didi Chuxing, Lyft, and Uber, arrange
thousands of cars to meet ride requests throughout the day. We consider a
Markov decision process (MDP) model of a ride-hailing service system, framing
it as a reinforcement learning (RL) problem. The simultaneous control of many
agents (cars) presents a challenge for the MDP optimization because the action
space grows exponentially with the number of cars. We propose a special
decomposition for the MDP actions by sequentially assigning tasks to the
drivers. The new actions structure resolves the scalability problem and enables
the use of deep RL algorithms for control policy optimization. We demonstrate
the benefit of our proposed decomposition with a numerical experiment based on
real data from Didi Chuxing.
- Abstract(参考訳): Didi Chuxing、Lyft、Uberなどのライドシェアサービスでは、一日中何千台もの車が乗車要求に応えている。
配車サービスシステムのマルコフ決定プロセス(mdp)モデルについて,強化学習(rl)問題として考察した。
多くのエージェント(車両)の同時制御は、車数とともに行動空間が指数関数的に増加するため、MDP最適化の課題となる。
本稿では,ドライバにタスクを逐次割り当てることにより,MDP動作の特殊分解を提案する。
新しいアクション構造はスケーラビリティの問題を解決し、制御ポリシ最適化に深いRLアルゴリズムを使用できる。
本研究では,Didi Chuxingの実データに基づく数値実験により,提案手法の利点を実証する。
関連論文リスト
- Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Implicit Sensing in Traffic Optimization: Advanced Deep Reinforcement
Learning Techniques [4.042717292629285]
本稿では,Deep Reinforcement Learning(DRL)に基づく車追従・車線変更決定制御システムを提案する。
我々は、よく知られたDQNアルゴリズムを用いてRLエージェントを訓練し、適切な判断を下す。
提案したモデルの性能を,エプシロン・グレーディ・ポリシーとボルツマン・ポリシーの2つのポリシーで評価する。
論文 参考訳(メタデータ) (2023-09-25T15:33:08Z) - Action and Trajectory Planning for Urban Autonomous Driving with
Hierarchical Reinforcement Learning [1.3397650653650457]
本稿では,階層型強化学習法(atHRL)を用いた行動・軌道プランナを提案する。
我々は、複雑な都市運転シナリオにおける広範な実験を通して、atHRLの有効性を実証的に検証した。
論文 参考訳(メタデータ) (2023-06-28T07:11:02Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Markov Decision Process modeled with Bandits for Sequential Decision
Making in Linear-flow [73.1896399783641]
会員/加入者の獲得と保持では、複数のページを連続してマーケティングコンテンツを推奨する必要がある。
遷移確率行列をモデル化するためにBandits を用いた MDP としてこの問題を定式化することを提案する。
提案したMDPのBanditsアルゴリズムは,$epsilon$-greedyと$epsilon$-greedy,$epsilon$,IndependentBandits,InteractionBanditsでQ-learningを上回っている。
論文 参考訳(メタデータ) (2021-07-01T03:54:36Z) - A Deep Value-network Based Approach for Multi-Driver Order Dispatching [55.36656442934531]
そこで本研究では,注文発送のための深層強化学習に基づくソリューションを提案する。
DiDiの配車プラットフォーム上で大規模なオンラインA/Bテストを実施している。
その結果,CVNetは近年提案されているディスパッチ手法よりも一貫して優れていた。
論文 参考訳(メタデータ) (2021-06-08T16:27:04Z) - Real-world Ride-hailing Vehicle Repositioning using Deep Reinforcement
Learning [52.2663102239029]
アイドルヘイリングプラットフォーム上での現実世界の車両の深層強化学習と意思決定時間計画に基づく新しい実用的枠組みを提示する。
本手法は,重み付きバッチ学習アルゴリズムを用いて乗車時の状態値関数を学習する。
配車シミュレーション環境におけるベースラインでアルゴリズムをベンチマークし、収益効率の向上における優位性を実証します。
論文 参考訳(メタデータ) (2021-03-08T05:34:05Z) - Combining Reinforcement Learning with Model Predictive Control for
On-Ramp Merging [10.480121529429631]
自律運転における運動計画問題の解法として,モデル予測制御(MPC)と強化学習(RL)の2つの幅広い手法が提案されている。
まず、シミュレーションにより最先端のMPCとRLベースの技術の長所と短所を確立する。
その後、モデルフリーなRLエージェントとMPCソリューションをブレンドして、乗客の快適性、効率性、衝突速度、堅牢性といったすべての指標間のトレードオフを改善できることを示すアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-17T07:42:11Z) - Deep Surrogate Q-Learning for Autonomous Driving [17.30342128504405]
本稿では,自律運転における車線変更行動学習のためのSurrogate Q-learningを提案する。
このアーキテクチャは、Scene-centric Experience Replayと呼ばれる新しいリプレイサンプリング技術に繋がることを示す。
また,本手法は実高Dデータセット上のポリシーを学習することで,実世界のRLシステムの適用性を向上させる。
論文 参考訳(メタデータ) (2020-10-21T19:49:06Z) - Efficient Ridesharing Dispatch Using Multi-Agent Reinforcement Learning [0.0]
UberやLyftのようなライドシェアリングサービスは、乗客が車を拾うように注文できるサービスを提供している。
ライドシェアリング問題を解決するための従来の強化学習(RL)に基づく手法は、タクシーが運用する複雑な環境を正確にモデル化することができない。
固定グリッドサイズでのIDQNベースラインよりも優れた性能を示し、より小さなグリッドサイズやより大きなグリッドサイズに最適化できることを示す。
当社のアルゴリズムは,各エピソードの乗客数や車両数が変動するシナリオにおいて,IDQNベースラインを上回っている。
論文 参考訳(メタデータ) (2020-06-18T23:37:53Z) - Reinforcement Learning Based Vehicle-cell Association Algorithm for
Highly Mobile Millimeter Wave Communication [53.47785498477648]
本稿では,ミリ波通信網における車とセルの関連性について検討する。
まず、ユーザ状態(VU)問題を離散的な非車両関連最適化問題として定式化する。
提案手法は,複数のベースライン設計と比較して,ユーザの複雑性とVUEの20%削減の合計で最大15%のゲインが得られる。
論文 参考訳(メタデータ) (2020-01-22T08:51:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。