論文の概要: A Deep Value-network Based Approach for Multi-Driver Order Dispatching
- arxiv url: http://arxiv.org/abs/2106.04493v1
- Date: Tue, 8 Jun 2021 16:27:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 16:15:09.871510
- Title: A Deep Value-network Based Approach for Multi-Driver Order Dispatching
- Title(参考訳): マルチドライバオーダディスパッチのためのディープバリューネットワークに基づくアプローチ
- Authors: Xiaocheng Tang, Zhiwei Qin, Fan Zhang, Zhaodong Wang, Zhe Xu, Yintai
Ma, Hongtu Zhu, Jieping Ye
- Abstract要約: そこで本研究では,注文発送のための深層強化学習に基づくソリューションを提案する。
DiDiの配車プラットフォーム上で大規模なオンラインA/Bテストを実施している。
その結果,CVNetは近年提案されているディスパッチ手法よりも一貫して優れていた。
- 参考スコア(独自算出の注目度): 55.36656442934531
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent works on ride-sharing order dispatching have highlighted the
importance of taking into account both the spatial and temporal dynamics in the
dispatching process for improving the transportation system efficiency. At the
same time, deep reinforcement learning has advanced to the point where it
achieves superhuman performance in a number of fields. In this work, we propose
a deep reinforcement learning based solution for order dispatching and we
conduct large scale online A/B tests on DiDi's ride-dispatching platform to
show that the proposed method achieves significant improvement on both total
driver income and user experience related metrics. In particular, we model the
ride dispatching problem as a Semi Markov Decision Process to account for the
temporal aspect of the dispatching actions. To improve the stability of the
value iteration with nonlinear function approximators like neural networks, we
propose Cerebellar Value Networks (CVNet) with a novel distributed state
representation layer. We further derive a regularized policy evaluation scheme
for CVNet that penalizes large Lipschitz constant of the value network for
additional robustness against adversarial perturbation and noises. Finally, we
adapt various transfer learning methods to CVNet for increased learning
adaptability and efficiency across multiple cities. We conduct extensive
offline simulations based on real dispatching data as well as online AB tests
through the DiDi's platform. Results show that CVNet consistently outperforms
other recently proposed dispatching methods. We finally show that the
performance can be further improved through the efficient use of transfer
learning.
- Abstract(参考訳): 近年の配車発注における配車業務は、配車プロセスにおける空間的・時間的ダイナミクスを考慮した輸送システムの効率化の重要性を強調している。
同時に、深層強化学習は、多くの分野で超人的なパフォーマンスを達成する点まで進歩している。
そこで本研究では,配車プラットフォーム上での大規模オンラインa/bテストを実施し,運転者総収入とユーザエクスペリエンス関連指標の両方において大きな改善が達成できることを示す。
特に,配車時の問題を半マルコフ決定プロセスとしてモデル化し,配車行動の時間的側面を考慮した。
ニューラルネットワークのような非線形関数近似器による値反復の安定性を向上させるために,新しい分散状態表現層を持つCerebellar Value Networks (CVNet)を提案する。
さらに,値ネットワークの大きなリプシッツ定数をペナルティ化し,逆摂動や雑音に対する強固性を高めるcvnetの正規化ポリシー評価スキームも導出する。
最後に,様々な移動学習手法をCVNetに適用し,複数の都市で学習適応性と効率を向上させる。
実際のディスパッチデータに基づく広範囲なオフラインシミュレーションと,DiDiのプラットフォームによるオンラインABテストを行う。
その結果,CVNetは近年提案されているディスパッチ手法よりも一貫して優れていた。
最後に、転送学習の効率的な利用により、さらにパフォーマンスが向上することを示す。
関連論文リスト
- Adaptive Anomaly Detection in Network Flows with Low-Rank Tensor Decompositions and Deep Unrolling [9.20186865054847]
異常検出(AD)は、将来の通信システムのレジリエンスを確保するための重要な要素として、ますます認識されている。
この研究は、不完全測定を用いたネットワークフローにおけるADについて考察する。
本稿では,正規化モデル適合性に基づくブロック帰属凸近似アルゴリズムを提案する。
ベイズ的アプローチに触発されて、我々はモデルアーキテクチャを拡張し、フローごとのオンライン適応とステップごとの統計処理を行う。
論文 参考訳(メタデータ) (2024-09-17T19:59:57Z) - Rapid Network Adaptation: Learning to Adapt Neural Networks Using
Test-Time Feedback [12.946419909506883]
テスト時間フィードバック信号を用いてネットワークをオンザフライで適応するクローズドループシステムを構築した。
本稿では,このループを学習型関数を用いて効果的に実装し,ネットワークに対する償却を実現する方法を提案する。
これにより、Rapid Network Adaptation (RNA) と呼ばれる適応手法が実現され、ベースラインよりも柔軟で桁違いに高速になる。
論文 参考訳(メタデータ) (2023-09-27T16:20:39Z) - Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth
Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。
トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文 参考訳(メタデータ) (2023-09-12T13:03:47Z) - Online Network Source Optimization with Graph-Kernel MAB [62.6067511147939]
大規模ネットワークにおける最適なソース配置をオンラインで学習するためのグラフカーネルマルチアームバンディットアルゴリズムであるGrab-UCBを提案する。
適応グラフ辞書モデルを用いて,ネットワークプロセスを記述する。
我々は、ネットワークパラメータに依存する性能保証を導出し、シーケンシャルな意思決定戦略の学習曲線にさらに影響を及ぼす。
論文 参考訳(メタデータ) (2023-07-07T15:03:42Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Rewarded meta-pruning: Meta Learning with Rewards for Channel Pruning [19.978542231976636]
本稿では,ディープラーニングモデルにおける計算効率向上のためのパラメータとFLOPの削減手法を提案する。
本稿では,ネットワークの精度と計算効率のトレードオフを制御するために,精度と効率係数を導入する。
論文 参考訳(メタデータ) (2023-01-26T12:32:01Z) - Reinforcement Learning in the Wild: Scalable RL Dispatching Algorithm
Deployed in Ridehailing Marketplace [12.298997392937876]
本研究では,強化学習に基づくリアルタイムディスパッチアルゴリズムを提案する。
ディディのA/Bテストの運営下にある複数の都市でオンラインに展開され、主要な国際市場の一つで展開されている。
デプロイされたアルゴリズムは、A/Bテストによるドライバーの総収入を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-02-10T16:07:17Z) - CATRO: Channel Pruning via Class-Aware Trace Ratio Optimization [61.71504948770445]
本稿では,CATRO (Class-Aware Trace Ratio Optimization) を用いた新しいチャネルプルーニング手法を提案する。
CATROは、他の最先端チャネルプルーニングアルゴリズムと同等の精度で、同様のコストまたは低コストで高い精度を達成できることを示す。
CATROは、クラス認識の特性のため、様々な分類サブタスクに適応的に効率の良いネットワークを創り出すのに適している。
論文 参考訳(メタデータ) (2021-10-21T06:26:31Z) - Real-world Ride-hailing Vehicle Repositioning using Deep Reinforcement
Learning [52.2663102239029]
アイドルヘイリングプラットフォーム上での現実世界の車両の深層強化学習と意思決定時間計画に基づく新しい実用的枠組みを提示する。
本手法は,重み付きバッチ学習アルゴリズムを用いて乗車時の状態値関数を学習する。
配車シミュレーション環境におけるベースラインでアルゴリズムをベンチマークし、収益効率の向上における優位性を実証します。
論文 参考訳(メタデータ) (2021-03-08T05:34:05Z) - ES-Net: An Efficient Stereo Matching Network [4.8986598953553555]
既存のステレオマッチングネットワークは通常、性能を改善するために遅くて計算コストのかかる3D畳み込みを使用する。
本稿では,高性能かつ効率的な推定を実現する効率的なステレオネットワーク(esnet)を提案する。
論文 参考訳(メタデータ) (2021-03-05T20:11:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。