論文の概要: An End-to-End Reinforcement Learning Based Approach for Micro-View Order-Dispatching in Ride-Hailing
- arxiv url: http://arxiv.org/abs/2408.10479v1
- Date: Tue, 20 Aug 2024 01:30:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 15:34:22.963526
- Title: An End-to-End Reinforcement Learning Based Approach for Micro-View Order-Dispatching in Ride-Hailing
- Title(参考訳): エンド・ツー・エンド強化学習に基づくライダリーディングにおけるマイクロビュー次数分散手法
- Authors: Xinlang Yue, Yiran Liu, Fangzhou Shi, Sihong Luo, Chen Zhong, Min Lu, Zhe Xu,
- Abstract要約: ディディにおけるエンドツーエンドの強化学習に基づく秩序分散手法を提案する。
我々はこの問題をモデル化するために2層決定プロセスフレームワークを使用し、注文代入を生成するエンコーダ-デコーダ構造ネットワークであるアンダーラインDouble underlineScalable underlineNetwork (DSN2)を提案する。
コンテキストダイナミクスを活用することで、私たちのアプローチは行動パターンに適応してパフォーマンスを向上させることができます。
- 参考スコア(独自算出の注目度): 8.892147201091726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Assigning orders to drivers under localized spatiotemporal context (micro-view order-dispatching) is a major task in Didi, as it influences ride-hailing service experience. Existing industrial solutions mainly follow a two-stage pattern that incorporate heuristic or learning-based algorithms with naive combinatorial methods, tackling the uncertainty of both sides' behaviors, including emerging timings, spatial relationships, and travel duration, etc. In this paper, we propose a one-stage end-to-end reinforcement learning based order-dispatching approach that solves behavior prediction and combinatorial optimization uniformly in a sequential decision-making manner. Specifically, we employ a two-layer Markov Decision Process framework to model this problem, and present \underline{D}eep \underline{D}ouble \underline{S}calable \underline{N}etwork (D2SN), an encoder-decoder structure network to generate order-driver assignments directly and stop assignments accordingly. Besides, by leveraging contextual dynamics, our approach can adapt to the behavioral patterns for better performance. Extensive experiments on Didi's real-world benchmarks justify that the proposed approach significantly outperforms competitive baselines in optimizing matching efficiency and user experience tasks. In addition, we evaluate the deployment outline and discuss the gains and experiences obtained during the deployment tests from the view of large-scale engineering implementation.
- Abstract(参考訳): 配車サービス体験に影響を与えるため、ローカルな時空間(マイクロビューの注文伝達)の下でドライバーに注文を割り当てることが、Didiの主要な課題である。
既存の産業ソリューションは主に、ヒューリスティックまたは学習に基づくアルゴリズムを単純な組み合わせ手法で組み込んだ2段階のパターンに従っており、出現タイミング、空間的関係、旅行時間など、双方の行動の不確実性に対処している。
本稿では,一段階から一段階の強化学習に基づく順序分散手法を提案する。
具体的には、この問題をモデル化するために2層Markov Decision Processフレームワークを使用し、エンコーダ-デコーダ構造ネットワークである \underline{D}eep \underline{D}ouble \underline{S}calable \underline{N}etwork (D2SN) を提示し、それに従って注文ドライバの割り当てを直接生成し、割り当てを停止する。
さらに、コンテキストダイナミクスを活用することで、私たちのアプローチは行動パターンに適応してパフォーマンスを向上させることができます。
Didiの実際のベンチマークに関する大規模な実験は、提案されたアプローチが、マッチング効率とユーザエクスペリエンスタスクの最適化において、競争上のベースラインを大幅に上回っていることを正当化している。
さらに、大規模エンジニアリング実装の観点から、デプロイメントの概要を評価し、デプロイメントテストで得られた成果と経験について論じる。
関連論文リスト
- Warmup Generations: A Task-Agnostic Approach for Guiding Sequence-to-Sequence Learning with Unsupervised Initial State Generation [34.55224347308013]
シーケンシャル・ツー・シークエンス・タスクのための従来の教師付き微調整(SFT)戦略は、しばしばターゲット出力を直接生成するようにモデルを訓練する。
モデルが中間の"upwarm"シーケンスを生成可能なタスク非依存フレームワークを提案する。
提案手法は従来のSFT手法よりも優れており,シーケンシャル・ツー・シーケンス・タスクに対してスケーラブルで柔軟なソリューションを提供する。
論文 参考訳(メタデータ) (2025-02-17T20:23:42Z) - Optimal Task Order for Continual Learning of Multiple Tasks [3.591122855617648]
複数のタスクの継続的な学習は、ニューラルネットワークにとって依然として大きな課題である。
本稿では,タスク順序が連続学習にどのように影響するかを考察し,その最適化戦略を提案する。
そこで本研究では,タスク増分連続学習におけるタスク順最適化のための一般化可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-05T16:43:58Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - Causality-Aware Transformer Networks for Robotic Navigation [13.719643934968367]
Visual Navigationの現在の研究は、改善の機会を明らかにしている。
RNNとTransformerの直接的な採用はしばしば、Embodied AIと従来のシーケンシャルなデータモデリングの具体的な違いを見落としている。
因果理解モジュールを特徴とするナビゲーション用因果認識変換器(CAT)ネットワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T12:53:26Z) - Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。
事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。
次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文 参考訳(メタデータ) (2024-08-21T06:48:38Z) - Hierarchical Neural Constructive Solver for Real-world TSP Scenarios [27.986011761759567]
本稿では,産業環境に関連する現実的なトラベリングセールスマン問題(TSP)について紹介する。
我々の階層的アプローチは、古典的モデルと最近のトランスモデルの両方と比較して優れたパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2024-08-07T06:44:47Z) - An Efficient Learning-based Solver Comparable to Metaheuristics for the
Capacitated Arc Routing Problem [67.92544792239086]
我々は,高度メタヒューリスティックスとのギャップを著しく狭めるため,NNベースの解法を導入する。
まず,方向対応型注意モデル(DaAM)を提案する。
第2に、教師付き事前学習を伴い、堅牢な初期方針を確立するための教師付き強化学習スキームを設計する。
論文 参考訳(メタデータ) (2024-03-11T02:17:42Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Scalable PAC-Bayesian Meta-Learning via the PAC-Optimal Hyper-Posterior:
From Theory to Practice [54.03076395748459]
メタラーニング文学の中心的な疑問は、目に見えないタスクへの一般化を保証するために、いかに正規化するかである。
本稿では,Rothfussらによって最初に導かれたメタラーニングの一般化について述べる。
PAC-Bayesian per-task 学習境界におけるメタラーニングの条件と程度について,理論的解析および実証事例研究を行った。
論文 参考訳(メタデータ) (2022-11-14T08:51:04Z) - Improving Online Performance Prediction for Semantic Segmentation [29.726236358091295]
オンライン運用における意味的セグメンテーションディープニューラルネットワーク(DNN)の性能を観察するタスクに取り組みます。
多くのハイレベルな決定は、オフラインで評価されるようなDNNに依存しているが、オンライン運用におけるパフォーマンスは不明である。
本稿では,最近提案されている主意味セグメンテーションタスクの性能予測に基づくオンラインパフォーマンス予測手法を提案する。
論文 参考訳(メタデータ) (2021-04-12T07:44:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。