Fugu-MT 論文翻訳(概要): An End-to-End Reinforcement Learning Based Approach for Micro-View Order-Dispatching in Ride-Hailing

論文の概要: An End-to-End Reinforcement Learning Based Approach for Micro-View Order-Dispatching in Ride-Hailing

arxiv url: http://arxiv.org/abs/2408.10479v1
Date: Tue, 20 Aug 2024 01:30:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-21 15:34:22.963526
Title: An End-to-End Reinforcement Learning Based Approach for Micro-View Order-Dispatching in Ride-Hailing
Title（参考訳）: エンド・ツー・エンド強化学習に基づくライダリーディングにおけるマイクロビュー次数分散手法
Authors: Xinlang Yue, Yiran Liu, Fangzhou Shi, Sihong Luo, Chen Zhong, Min Lu, Zhe Xu,
Abstract要約: ディディにおけるエンドツーエンドの強化学習に基づく秩序分散手法を提案する。我々はこの問題をモデル化するために2層決定プロセスフレームワークを使用し、注文代入を生成するエンコーダ-デコーダ構造ネットワークであるアンダーラインDouble underlineScalable underlineNetwork (DSN2)を提案する。コンテキストダイナミクスを活用することで、私たちのアプローチは行動パターンに適応してパフォーマンスを向上させることができます。
参考スコア（独自算出の注目度）: 8.892147201091726
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Assigning orders to drivers under localized spatiotemporal context (micro-view order-dispatching) is a major task in Didi, as it influences ride-hailing service experience. Existing industrial solutions mainly follow a two-stage pattern that incorporate heuristic or learning-based algorithms with naive combinatorial methods, tackling the uncertainty of both sides' behaviors, including emerging timings, spatial relationships, and travel duration, etc. In this paper, we propose a one-stage end-to-end reinforcement learning based order-dispatching approach that solves behavior prediction and combinatorial optimization uniformly in a sequential decision-making manner. Specifically, we employ a two-layer Markov Decision Process framework to model this problem, and present \underline{D}eep \underline{D}ouble \underline{S}calable \underline{N}etwork (D2SN), an encoder-decoder structure network to generate order-driver assignments directly and stop assignments accordingly. Besides, by leveraging contextual dynamics, our approach can adapt to the behavioral patterns for better performance. Extensive experiments on Didi's real-world benchmarks justify that the proposed approach significantly outperforms competitive baselines in optimizing matching efficiency and user experience tasks. In addition, we evaluate the deployment outline and discuss the gains and experiences obtained during the deployment tests from the view of large-scale engineering implementation.
Abstract（参考訳）: 配車サービス体験に影響を与えるため、ローカルな時空間(マイクロビューの注文伝達)の下でドライバーに注文を割り当てることが、Didiの主要な課題である。既存の産業ソリューションは主に、ヒューリスティックまたは学習に基づくアルゴリズムを単純な組み合わせ手法で組み込んだ2段階のパターンに従っており、出現タイミング、空間的関係、旅行時間など、双方の行動の不確実性に対処している。本稿では,一段階から一段階の強化学習に基づく順序分散手法を提案する。具体的には、この問題をモデル化するために2層Markov Decision Processフレームワークを使用し、エンコーダ-デコーダ構造ネットワークである \underline{D}eep \underline{D}ouble \underline{S}calable \underline{N}etwork (D2SN) を提示し、それに従って注文ドライバの割り当てを直接生成し、割り当てを停止する。さらに、コンテキストダイナミクスを活用することで、私たちのアプローチは行動パターンに適応してパフォーマンスを向上させることができます。 Didiの実際のベンチマークに関する大規模な実験は、提案されたアプローチが、マッチング効率とユーザエクスペリエンスタスクの最適化において、競争上のベースラインを大幅に上回っていることを正当化している。さらに、大規模エンジニアリング実装の観点から、デプロイメントの概要を評価し、デプロイメントテストで得られた成果と経験について論じる。

関連論文リスト

Generative Actor Critic [74.04971271003869]
Generative Actor Critic (GAC) は、軌道上での関節分布の生成モデル学習として、テキスト政治評価を反映して、シーケンシャルな意思決定を分離する新しいフレームワークである。 Gym-MuJoCoとMaze2Dベンチマークの実験では、GACの強いオフライン性能と、最先端の手法と比較してオフラインからオフラインへの大幅な改善が示されている。
論文参考訳（メタデータ） (2025-12-25T06:31:11Z)
A Unified Multi-Task Learning Framework for Generative Auto-Bidding with Validation-Aligned Optimization [51.27959658504722]
マルチタスク学習は、これらのタスクを共有表現を通じて共同でトレーニングするための、原則化されたフレームワークを提供する。既存のマルチタスク最適化戦略は、主にトレーニングダイナミクスによって導かれ、不安定な入札環境ではよく一般化される。本稿では,タスク毎のトレーニング勾配と保留有効度勾配のアライメントに基づいてタスク重みを適応的に割り当てる,バリデーション適応型マルチタスク最適化(VAMO)を提案する。
論文参考訳（メタデータ） (2025-10-09T03:59:51Z)
LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文参考訳（メタデータ） (2025-05-22T16:22:54Z)
Learning to Insert for Constructive Neural Vehicle Routing Solver [13.61325290256131]
建設的NCOの学習手法として,挿入型パラダイム(L2C-Insert)を用いた構築学習を提案する。従来のアプローチとは異なり、L2C-Insertは、現在の部分解の任意の有効な位置において、意図しないノードを戦略的に挿入することで、ソリューションを構築する。トラベリングセールスマン問題 (TSP) とキャパシタント車両ルーティング問題 (CVRP) の総合的および実世界の事例において、L2C-Insert が一貫して優れた性能を発揮することを示した。
論文参考訳（メタデータ） (2025-05-20T04:10:50Z)
Warmup Generations: A Task-Agnostic Approach for Guiding Sequence-to-Sequence Learning with Unsupervised Initial State Generation [34.55224347308013]
シーケンシャル・ツー・シークエンス・タスクのための従来の教師付き微調整(SFT)戦略は、しばしばターゲット出力を直接生成するようにモデルを訓練する。モデルが中間の"upwarm"シーケンスを生成可能なタスク非依存フレームワークを提案する。提案手法は従来のSFT手法よりも優れており,シーケンシャル・ツー・シーケンス・タスクに対してスケーラブルで柔軟なソリューションを提供する。
論文参考訳（メタデータ） (2025-02-17T20:23:42Z)
Optimal Task Order for Continual Learning of Multiple Tasks [3.591122855617648]
複数のタスクの継続的な学習は、ニューラルネットワークにとって依然として大きな課題である。本稿では,タスク順序が連続学習にどのように影響するかを考察し,その最適化戦略を提案する。そこで本研究では,タスク増分連続学習におけるタスク順最適化のための一般化可能なフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-05T16:43:58Z)
A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文参考訳（メタデータ） (2024-12-18T15:38:39Z)
Long-Sequence Recommendation Models Need Decoupled Embeddings [49.410906935283585]
我々は、既存の長期推薦モデルにおいて無視された欠陥を識別し、特徴付ける。埋め込みの単一のセットは、注意と表現の両方を学ぶのに苦労し、これら2つのプロセス間の干渉につながります。本稿では,2つの異なる埋め込みテーブルを別々に学習し,注意と表現を完全に分離する,DARE(Decoupled Attention and Representation Embeddings)モデルを提案する。
論文参考訳（メタデータ） (2024-10-03T15:45:15Z)
Causality-Aware Transformer Networks for Robotic Navigation [13.719643934968367]
Visual Navigationの現在の研究は、改善の機会を明らかにしている。 RNNとTransformerの直接的な採用はしばしば、Embodied AIと従来のシーケンシャルなデータモデリングの具体的な違いを見落としている。因果理解モジュールを特徴とするナビゲーション用因果認識変換器(CAT)ネットワークを提案する。
論文参考訳（メタデータ） (2024-09-04T12:53:26Z)
Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文参考訳（メタデータ） (2024-08-21T06:48:38Z)
Hierarchical Neural Constructive Solver for Real-world TSP Scenarios [27.986011761759567]
本稿では,産業環境に関連する現実的なトラベリングセールスマン問題(TSP)について紹介する。我々の階層的アプローチは、古典的モデルと最近のトランスモデルの両方と比較して優れたパフォーマンスをもたらす。
論文参考訳（メタデータ） (2024-08-07T06:44:47Z)
Revisiting and Maximizing Temporal Knowledge in Semi-supervised Semantic Segmentation [7.005068872406135]
平均教師と共同学習に基づくアプローチは、確認バイアスと結合問題を緩和するために用いられる。これらのアプローチは、複雑なトレーニングパイプラインとかなりの計算負担を伴うことが多い。本稿では,トレーニングプロセス中に得られた時間的知識を最大限活用することにより,制約を効果的に緩和するPrevMatchフレームワークを提案する。
論文参考訳（メタデータ） (2024-05-31T03:54:59Z)
An Efficient Learning-based Solver Comparable to Metaheuristics for the Capacitated Arc Routing Problem [67.92544792239086]
我々は,高度メタヒューリスティックスとのギャップを著しく狭めるため,NNベースの解法を導入する。まず,方向対応型注意モデル(DaAM)を提案する。第2に、教師付き事前学習を伴い、堅牢な初期方針を確立するための教師付き強化学習スキームを設計する。
論文参考訳（メタデータ） (2024-03-11T02:17:42Z)
Hierarchical Decomposition of Prompt-Based Continual Learning: Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。 HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文参考訳（メタデータ） (2023-10-11T06:51:46Z)
End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文参考訳（メタデータ） (2023-05-25T10:58:46Z)
Scalable PAC-Bayesian Meta-Learning via the PAC-Optimal Hyper-Posterior: From Theory to Practice [54.03076395748459]
メタラーニング文学の中心的な疑問は、目に見えないタスクへの一般化を保証するために、いかに正規化するかである。本稿では,Rothfussらによって最初に導かれたメタラーニングの一般化について述べる。 PAC-Bayesian per-task 学習境界におけるメタラーニングの条件と程度について,理論的解析および実証事例研究を行った。
論文参考訳（メタデータ） (2022-11-14T08:51:04Z)
Contrastive Self-supervised Sequential Recommendation with Robust Augmentation [101.25762166231904]
Sequential Recommendation Describes a set of technique to model dynamic user behavior to order to predict future interaction in sequence user data。データスパーシリティやノイズの多いデータなど、古くて新しい問題はまだ残っている。逐次レコメンデーション(CoSeRec)のためのコントラスト型自己監督学習を提案する。
論文参考訳（メタデータ） (2021-08-14T07:15:25Z)
Improving Online Performance Prediction for Semantic Segmentation [29.726236358091295]
オンライン運用における意味的セグメンテーションディープニューラルネットワーク(DNN)の性能を観察するタスクに取り組みます。多くのハイレベルな決定は、オフラインで評価されるようなDNNに依存しているが、オンライン運用におけるパフォーマンスは不明である。本稿では,最近提案されている主意味セグメンテーションタスクの性能予測に基づくオンラインパフォーマンス予測手法を提案する。
論文参考訳（メタデータ） (2021-04-12T07:44:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。