論文の概要: An End-to-End Reinforcement Learning Based Approach for Micro-View Order-Dispatching in Ride-Hailing
- arxiv url: http://arxiv.org/abs/2408.10479v1
- Date: Tue, 20 Aug 2024 01:30:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 15:34:22.963526
- Title: An End-to-End Reinforcement Learning Based Approach for Micro-View Order-Dispatching in Ride-Hailing
- Title(参考訳): エンド・ツー・エンド強化学習に基づくライダリーディングにおけるマイクロビュー次数分散手法
- Authors: Xinlang Yue, Yiran Liu, Fangzhou Shi, Sihong Luo, Chen Zhong, Min Lu, Zhe Xu,
- Abstract要約: ディディにおけるエンドツーエンドの強化学習に基づく秩序分散手法を提案する。
我々はこの問題をモデル化するために2層決定プロセスフレームワークを使用し、注文代入を生成するエンコーダ-デコーダ構造ネットワークであるアンダーラインDouble underlineScalable underlineNetwork (DSN2)を提案する。
コンテキストダイナミクスを活用することで、私たちのアプローチは行動パターンに適応してパフォーマンスを向上させることができます。
- 参考スコア(独自算出の注目度): 8.892147201091726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Assigning orders to drivers under localized spatiotemporal context (micro-view order-dispatching) is a major task in Didi, as it influences ride-hailing service experience. Existing industrial solutions mainly follow a two-stage pattern that incorporate heuristic or learning-based algorithms with naive combinatorial methods, tackling the uncertainty of both sides' behaviors, including emerging timings, spatial relationships, and travel duration, etc. In this paper, we propose a one-stage end-to-end reinforcement learning based order-dispatching approach that solves behavior prediction and combinatorial optimization uniformly in a sequential decision-making manner. Specifically, we employ a two-layer Markov Decision Process framework to model this problem, and present \underline{D}eep \underline{D}ouble \underline{S}calable \underline{N}etwork (D2SN), an encoder-decoder structure network to generate order-driver assignments directly and stop assignments accordingly. Besides, by leveraging contextual dynamics, our approach can adapt to the behavioral patterns for better performance. Extensive experiments on Didi's real-world benchmarks justify that the proposed approach significantly outperforms competitive baselines in optimizing matching efficiency and user experience tasks. In addition, we evaluate the deployment outline and discuss the gains and experiences obtained during the deployment tests from the view of large-scale engineering implementation.
- Abstract(参考訳): 配車サービス体験に影響を与えるため、ローカルな時空間(マイクロビューの注文伝達)の下でドライバーに注文を割り当てることが、Didiの主要な課題である。
既存の産業ソリューションは主に、ヒューリスティックまたは学習に基づくアルゴリズムを単純な組み合わせ手法で組み込んだ2段階のパターンに従っており、出現タイミング、空間的関係、旅行時間など、双方の行動の不確実性に対処している。
本稿では,一段階から一段階の強化学習に基づく順序分散手法を提案する。
具体的には、この問題をモデル化するために2層Markov Decision Processフレームワークを使用し、エンコーダ-デコーダ構造ネットワークである \underline{D}eep \underline{D}ouble \underline{S}calable \underline{N}etwork (D2SN) を提示し、それに従って注文ドライバの割り当てを直接生成し、割り当てを停止する。
さらに、コンテキストダイナミクスを活用することで、私たちのアプローチは行動パターンに適応してパフォーマンスを向上させることができます。
Didiの実際のベンチマークに関する大規模な実験は、提案されたアプローチが、マッチング効率とユーザエクスペリエンスタスクの最適化において、競争上のベースラインを大幅に上回っていることを正当化している。
さらに、大規模エンジニアリング実装の観点から、デプロイメントの概要を評価し、デプロイメントテストで得られた成果と経験について論じる。
関連論文リスト
- Causality-Aware Transformer Networks for Robotic Navigation [13.719643934968367]
Visual Navigationの現在の研究は、改善の機会を明らかにしている。
RNNとTransformerの直接的な採用はしばしば、Embodied AIと従来のシーケンシャルなデータモデリングの具体的な違いを見落としている。
因果理解モジュールを特徴とするナビゲーション用因果認識変換器(CAT)ネットワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T12:53:26Z) - Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。
事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。
次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文 参考訳(メタデータ) (2024-08-21T06:48:38Z) - Hierarchical Neural Constructive Solver for Real-world TSP Scenarios [27.986011761759567]
本稿では,産業環境に関連する現実的なトラベリングセールスマン問題(TSP)について紹介する。
我々の階層的アプローチは、古典的モデルと最近のトランスモデルの両方と比較して優れたパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2024-08-07T06:44:47Z) - Revisiting and Maximizing Temporal Knowledge in Semi-supervised Semantic Segmentation [7.005068872406135]
平均教師と共同学習に基づくアプローチは、確認バイアスと結合問題を緩和するために用いられる。
これらのアプローチは、複雑なトレーニングパイプラインとかなりの計算負担を伴うことが多い。
本稿では,トレーニングプロセス中に得られた時間的知識を最大限活用することにより,制約を効果的に緩和するPrevMatchフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-31T03:54:59Z) - An Efficient Learning-based Solver Comparable to Metaheuristics for the
Capacitated Arc Routing Problem [67.92544792239086]
我々は,高度メタヒューリスティックスとのギャップを著しく狭めるため,NNベースの解法を導入する。
まず,方向対応型注意モデル(DaAM)を提案する。
第2に、教師付き事前学習を伴い、堅牢な初期方針を確立するための教師付き強化学習スキームを設計する。
論文 参考訳(メタデータ) (2024-03-11T02:17:42Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Scalable PAC-Bayesian Meta-Learning via the PAC-Optimal Hyper-Posterior:
From Theory to Practice [54.03076395748459]
メタラーニング文学の中心的な疑問は、目に見えないタスクへの一般化を保証するために、いかに正規化するかである。
本稿では,Rothfussらによって最初に導かれたメタラーニングの一般化について述べる。
PAC-Bayesian per-task 学習境界におけるメタラーニングの条件と程度について,理論的解析および実証事例研究を行った。
論文 参考訳(メタデータ) (2022-11-14T08:51:04Z) - Contrastive Self-supervised Sequential Recommendation with Robust
Augmentation [101.25762166231904]
Sequential Recommendation Describes a set of technique to model dynamic user behavior to order to predict future interaction in sequence user data。
データスパーシリティやノイズの多いデータなど、古くて新しい問題はまだ残っている。
逐次レコメンデーション(CoSeRec)のためのコントラスト型自己監督学習を提案する。
論文 参考訳(メタデータ) (2021-08-14T07:15:25Z) - Improving Online Performance Prediction for Semantic Segmentation [29.726236358091295]
オンライン運用における意味的セグメンテーションディープニューラルネットワーク(DNN)の性能を観察するタスクに取り組みます。
多くのハイレベルな決定は、オフラインで評価されるようなDNNに依存しているが、オンライン運用におけるパフォーマンスは不明である。
本稿では,最近提案されている主意味セグメンテーションタスクの性能予測に基づくオンラインパフォーマンス予測手法を提案する。
論文 参考訳(メタデータ) (2021-04-12T07:44:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。