論文の概要: Value Function is All You Need: A Unified Learning Framework for Ride
Hailing Platforms
- arxiv url: http://arxiv.org/abs/2105.08791v2
- Date: Thu, 20 May 2021 01:04:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 11:02:19.779096
- Title: Value Function is All You Need: A Unified Learning Framework for Ride
Hailing Platforms
- Title(参考訳): Value Functionは必要なものすべて: ハイドプラットフォームのための統一学習フレームワーク
- Authors: Xiaocheng Tang, Fan Zhang, Zhiwei Qin, Yansheng Wang, Dingyuan Shi,
Bingchen Song, Yongxin Tong, Hongtu Zhu, Jieping Ye
- Abstract要約: DiDi、Uber、Lyftなどの大型配車プラットフォームは、都市内の数万台の車両を1日中数百万の乗車要求に接続している。
両課題に対処するための統合価値に基づく動的学習フレームワーク(V1D3)を提案する。
- 参考スコア(独自算出の注目度): 57.21078336887961
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large ride-hailing platforms, such as DiDi, Uber and Lyft, connect tens of
thousands of vehicles in a city to millions of ride demands throughout the day,
providing great promises for improving transportation efficiency through the
tasks of order dispatching and vehicle repositioning. Existing studies,
however, usually consider the two tasks in simplified settings that hardly
address the complex interactions between the two, the real-time fluctuations
between supply and demand, and the necessary coordinations due to the
large-scale nature of the problem. In this paper we propose a unified
value-based dynamic learning framework (V1D3) for tackling both tasks. At the
center of the framework is a globally shared value function that is updated
continuously using online experiences generated from real-time platform
transactions. To improve the sample-efficiency and the robustness, we further
propose a novel periodic ensemble method combining the fast online learning
with a large-scale offline training scheme that leverages the abundant
historical driver trajectory data. This allows the proposed framework to adapt
quickly to the highly dynamic environment, to generalize robustly to recurrent
patterns and to drive implicit coordinations among the population of managed
vehicles. Extensive experiments based on real-world datasets show considerably
improvements over other recently proposed methods on both tasks. Particularly,
V1D3 outperforms the first prize winners of both dispatching and repositioning
tracks in the KDD Cup 2020 RL competition, achieving state-of-the-art results
on improving both total driver income and user experience related metrics.
- Abstract(参考訳): DiDi、Uber、Lyftなどの大型配車プラットフォームは、都市内の数万台の車両を1日中数百万の乗車要求に接続し、注文の発送と車両配置のタスクを通じて、交通効率を向上させるための素晴らしい約束を提供する。
しかし、既存の研究では2つのタスクが単純化されており、これら2つの間の複雑な相互作用、供給と需要のリアルタイムな変動、そして問題の大規模な性質による必要な調整にほとんど対応していない。
本稿では,両タスクに取り組むための統合価値ベース動的学習フレームワーク(v1d3)を提案する。
フレームワークの中心にはグローバルな共有バリュー関数があり、リアルタイムプラットフォームトランザクションから生成されたオンラインエクスペリエンスを使用して継続的に更新される。
サンプル効率とロバスト性を改善するために,高速オンライン学習と,豊富な履歴ドライバ軌道データを活用する大規模なオフライン学習手法を組み合わせた,新しい定期的なアンサンブル手法を提案する。
これにより、提案するフレームワークは、非常にダイナミックな環境に迅速に適応し、繰り返しパターンに頑健に一般化し、管理車両の人口間の暗黙的な調整を促進することができる。
実世界のデータセットに基づく広範な実験では、両タスクで最近提案された他の方法よりも大幅に改善されている。
特に、v1d3は、kdd cup 2020 rlコンペティションにおけるディスパッチとリプレースの両方のトラックの勝者を上回り、ドライバー総収入とユーザエクスペリエンス関連の指標の両方を改善する最新結果を達成している。
関連論文リスト
- CoMamba: Real-time Cooperative Perception Unlocked with State Space Models [39.87600356189242]
CoMambaは、リアルタイム車載認識にステートスペースモデルを活用するために設計された、新しい3D検出フレームワークである。
CoMambaは、リアルタイム処理能力を維持しながら、既存の方法よりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-09-16T20:02:19Z) - Importance Sampling-Guided Meta-Training for Intelligent Agents in Highly Interactive Environments [43.144056801987595]
本研究では,ガイド付きメタRLと重要サンプリング(IS)を統合し,トレーニング分布を最適化する新たなトレーニングフレームワークを提案する。
現実世界のデータセットから自然な分布を推定することにより、このフレームワークは、共通および極端な駆動シナリオ間のバランスのとれたフォーカスを保証する。
論文 参考訳(メタデータ) (2024-07-22T17:57:12Z) - Dual Policy Reinforcement Learning for Real-time Rebalancing in Bike-sharing Systems [13.083156894368532]
自転車シェアリングシステムは、交通渋滞を緩和し、より健康的なライフスタイルを促進する上で重要な役割を担っている。
本研究では,車両群によるリアルタイムリバランス問題に対処するための新しいアプローチを提案する。
在庫とルーティングの決定を分離する、二重ポリシー強化学習アルゴリズムを採用している。
論文 参考訳(メタデータ) (2024-06-02T21:05:23Z) - A Reinforcement Learning Approach for Dynamic Rebalancing in
Bike-Sharing System [11.237099288412558]
自転車シェアリングシステムはエコフレンドリーな都市移動を提供し、交通渋滞と健康的な生活様式の緩和に貢献している。
駅間で自転車を再分配するための車両を用いた効果的な再バランス戦略の開発は、オペレーターにとって非常に重要である。
本稿では,複数の車両との動的再バランス問題に対する時間的強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-05T23:46:42Z) - Combinatorial Optimization enriched Machine Learning to solve the
Dynamic Vehicle Routing Problem with Time Windows [5.4807970361321585]
最適化層を組み込んだ新しい機械学習パイプラインを提案する。
最近,EURO Meets NeurIPS Competition at NeurIPS 2022において,このパイプラインを波による動的車両ルーティング問題に適用した。
提案手法は,提案した動的車両経路問題の解法において,他の全ての手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-03T08:23:09Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - A Deep Value-network Based Approach for Multi-Driver Order Dispatching [55.36656442934531]
そこで本研究では,注文発送のための深層強化学習に基づくソリューションを提案する。
DiDiの配車プラットフォーム上で大規模なオンラインA/Bテストを実施している。
その結果,CVNetは近年提案されているディスパッチ手法よりも一貫して優れていた。
論文 参考訳(メタデータ) (2021-06-08T16:27:04Z) - Flatland Competition 2020: MAPF and MARL for Efficient Train
Coordination on a Grid World [49.80905654161763]
車両再スケジュール問題(vrsp)の解法開発を目的としたフラットランドコンペティション
VRSPは、交通ネットワークにおける旅行のスケジュールと、故障が発生した場合の車両の再スケジュールに関するものである。
現代の鉄道網の複雑化は、交通の動的リアルタイムスケジューリングを事実上不可能にします。
論文 参考訳(メタデータ) (2021-03-30T17:13:29Z) - Real-world Ride-hailing Vehicle Repositioning using Deep Reinforcement
Learning [52.2663102239029]
アイドルヘイリングプラットフォーム上での現実世界の車両の深層強化学習と意思決定時間計画に基づく新しい実用的枠組みを提示する。
本手法は,重み付きバッチ学習アルゴリズムを用いて乗車時の状態値関数を学習する。
配車シミュレーション環境におけるベースラインでアルゴリズムをベンチマークし、収益効率の向上における優位性を実証します。
論文 参考訳(メタデータ) (2021-03-08T05:34:05Z) - Multi-intersection Traffic Optimisation: A Benchmark Dataset and a
Strong Baseline [85.9210953301628]
交通信号の制御は、都市部の交通渋滞の緩和に必要不可欠である。
問題モデリングの複雑さが高いため、現在の作業の実験的な設定はしばしば矛盾する。
エンコーダ・デコーダ構造を用いた深層強化学習に基づく新規で強力なベースラインモデルを提案する。
論文 参考訳(メタデータ) (2021-01-24T03:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。