論文の概要: Triple-BERT: Do We Really Need MARL for Order Dispatch on Ride-Sharing Platforms?
- arxiv url: http://arxiv.org/abs/2510.03257v1
- Date: Fri, 26 Sep 2025 13:15:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-12 15:03:05.809149
- Title: Triple-BERT: Do We Really Need MARL for Order Dispatch on Ride-Sharing Platforms?
- Title(参考訳): Triple-BERT: ライドシェアリングプラットフォーム上での秩序分散にMARLは本当に必要か?
- Authors: Zijian Zhao, Sen Li,
- Abstract要約: Triple-BERTは、ライドシェアリングプラットフォーム上の大規模オーダー車両用に特別に設計された集中型シングルエージェント強化学習(MARL)手法である。
提案手法は,共同動作確率を個々の運転者行動確率に分解する動作分解戦略を通じて,広い行動空間に対処する。
Triple-BERTは、現在の最先端技術よりも約11.95%改善され、4.26%のサービス注文が増加し、22.25%のピックアップ時間が短縮された。
- 参考スコア(独自算出の注目度): 5.703301837612397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On-demand ride-sharing platforms, such as Uber and Lyft, face the intricate real-time challenge of bundling and matching passengers-each with distinct origins and destinations-to available vehicles, all while navigating significant system uncertainties. Due to the extensive observation space arising from the large number of drivers and orders, order dispatching, though fundamentally a centralized task, is often addressed using Multi-Agent Reinforcement Learning (MARL). However, independent MARL methods fail to capture global information and exhibit poor cooperation among workers, while Centralized Training Decentralized Execution (CTDE) MARL methods suffer from the curse of dimensionality. To overcome these challenges, we propose Triple-BERT, a centralized Single Agent Reinforcement Learning (MARL) method designed specifically for large-scale order dispatching on ride-sharing platforms. Built on a variant TD3, our approach addresses the vast action space through an action decomposition strategy that breaks down the joint action probability into individual driver action probabilities. To handle the extensive observation space, we introduce a novel BERT-based network, where parameter reuse mitigates parameter growth as the number of drivers and orders increases, and the attention mechanism effectively captures the complex relationships among the large pool of driver and orders. We validate our method using a real-world ride-hailing dataset from Manhattan. Triple-BERT achieves approximately an 11.95% improvement over current state-of-the-art methods, with a 4.26% increase in served orders and a 22.25% reduction in pickup times. Our code, trained model parameters, and processed data are publicly available at the repository https://github.com/RS2002/Triple-BERT .
- Abstract(参考訳): UberやLyftのようなオンデマンドのライドシェアリングプラットフォームは、乗客を別々に起源や目的地と一致させるという、複雑なリアルタイムの課題に直面している。
多くのドライバーや注文から生じる広い観測空間のため、注文の発送は基本的に中央集権的な作業であるが、MARL(Multi-Agent Reinforcement Learning)を用いて対処されることが多い。
しかし、MARL法はグローバルな情報の収集に失敗し、労働者間の協力関係が乏しい一方で、CTDE法は次元の呪いに苦しむ。
これらの課題を克服するために、ライドシェアリングプラットフォーム上での大規模注文配信に特化して設計された集中型シングルエージェント強化学習(MARL)手法であるTriple-BERTを提案する。
可変なTD3に基づいて構築された本手法では, 共同動作確率を個々のドライバ動作確率に分解する動作分解戦略により, 広大な動作空間に対処する。
広範囲な観測空間を扱うため,パラメータの再利用により,ドライバ数や注文数の増加に伴ってパラメータの増大を緩和するBERTベースのネットワークを導入し,注意機構はドライバーと注文の大規模なプール間の複雑な関係を効果的に捉える。
マンハッタンの実際のライドシェアリングデータセットを用いて,本手法の有効性を検証した。
Triple-BERTは、現在の最先端技術よりも約11.95%改善され、4.26%のサービス注文が増加し、22.25%のピックアップ時間が短縮された。
私たちのコード、訓練されたモデルパラメータ、および処理されたデータは、リポジトリ https://github.com/RS2002/Triple-BERT で公開されています。
関連論文リスト
- Single Agent Robust Deep Reinforcement Learning for Bus Fleet Control [9.910562011343009]
バスの群れは交通と乗客の需要のために都市交通にとって困難である。
バス保持制御のための単エージェント強化学習フレームワークを提案する。
修正されたアクター・クリティは,ベンチマークよりも安定かつ優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2025-08-28T13:47:40Z) - RobustMerge: Parameter-Efficient Model Merging for MLLMs with Direction Robustness [28.437105789298244]
RobustMergeは、方向ロバスト性を維持するために相補的なパラメータ適応を備えたトレーニング不要なパラメータ効率のマージ手法である。
多様なマルチモーダルタスクからなるベンチマークを構築し,本手法の卓越した性能と一般化性を証明する実験を行った。
論文 参考訳(メタデータ) (2025-02-24T13:52:05Z) - A Bayesian Framework of Deep Reinforcement Learning for Joint O-RAN/MEC
Orchestration [12.914011030970814]
マルチアクセスエッジコンピューティング(MEC)は、コモディティプラットフォーム上でOpen Radio Access Network(O-RAN)と一緒に実装することで、低コストなデプロイメントを実現する。
本稿では,ベイジアンディープ強化学習(RL)を用いたO-RAN/MEC協調オーケストレーションを提案する。
論文 参考訳(メタデータ) (2023-12-26T18:04:49Z) - A High-Accuracy Unsupervised Person Re-identification Method Using
Auxiliary Information Mined from Datasets [53.047542904329866]
マルチモーダルな特徴学習のためのデータセットから抽出した補助情報を利用する。
本稿では,Restricted Label Smoothing Cross Entropy Loss (RLSCE), Weight Adaptive Triplet Loss (WATL), Dynamic Training Iterations (DTI)の3つの効果的なトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-05-06T10:16:18Z) - Collaborative Visual Navigation [69.20264563368762]
マルチエージェント視覚ナビゲーション(MAVN)のための大規模3次元データセットCollaVNを提案する。
様々なMAVN変種を探索し、この問題をより一般化する。
メモリ拡張通信フレームワークを提案する。各エージェントには、通信情報を永続的に保存するプライベートな外部メモリが備わっている。
論文 参考訳(メタデータ) (2021-07-02T15:48:16Z) - MALib: A Parallel Framework for Population-based Multi-agent
Reinforcement Learning [61.28547338576706]
人口ベースマルチエージェント強化学習(PB-MARL)は、強化学習(RL)アルゴリズムでネストした一連の手法を指す。
PB-MARLのためのスケーラブルで効率的な計算フレームワークMALibを提案する。
論文 参考訳(メタデータ) (2021-06-05T03:27:08Z) - A Modular and Transferable Reinforcement Learning Framework for the
Fleet Rebalancing Problem [2.299872239734834]
モデルフリー強化学習(RL)に基づく艦隊再バランスのためのモジュラーフレームワークを提案する。
動作領域のグリッド上の分布としてRL状態とアクション空間を定式化し,フレームワークをスケーラブルにする。
実世界の旅行データとネットワークデータを用いた数値実験は、このアプローチがベースライン法よりもいくつかの異なる利点があることを実証している。
論文 参考訳(メタデータ) (2021-05-27T16:32:28Z) - Decoupled and Memory-Reinforced Networks: Towards Effective Feature
Learning for One-Step Person Search [65.51181219410763]
歩行者検出と識別サブタスクを1つのネットワークで処理するワンステップ方式を開発しました。
現在のワンステップアプローチには2つの大きな課題があります。
本稿では,これらの問題を解決するために,分離メモリ強化ネットワーク(DMRNet)を提案する。
論文 参考訳(メタデータ) (2021-02-22T06:19:45Z) - Efficient Ridesharing Dispatch Using Multi-Agent Reinforcement Learning [0.0]
UberやLyftのようなライドシェアリングサービスは、乗客が車を拾うように注文できるサービスを提供している。
ライドシェアリング問題を解決するための従来の強化学習(RL)に基づく手法は、タクシーが運用する複雑な環境を正確にモデル化することができない。
固定グリッドサイズでのIDQNベースラインよりも優れた性能を示し、より小さなグリッドサイズやより大きなグリッドサイズに最適化できることを示す。
当社のアルゴリズムは,各エピソードの乗客数や車両数が変動するシナリオにおいて,IDQNベースラインを上回っている。
論文 参考訳(メタデータ) (2020-06-18T23:37:53Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。