論文の概要: Non-myopic Matching and Rebalancing in Large-Scale On-Demand Ride-Pooling Systems Using Simulation-Informed Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.25796v1
- Date: Tue, 28 Oct 2025 23:21:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.490878
- Title: Non-myopic Matching and Rebalancing in Large-Scale On-Demand Ride-Pooling Systems Using Simulation-Informed Reinforcement Learning
- Title(参考訳): シミュレーションインフォームド強化学習を用いた大規模オン・デマンド・ライド・ポーリングシステムにおける非ミオピックマッチングとリバランシング
- Authors: Farnoosh Namdarpour, Joseph Y. J. Chow,
- Abstract要約: ライドプール(英: Ride-pooling)またはライドシェアリング(英: ride-hailing)またはシェアライドシェアリング(英: shared ride-sharing)またはマイクロトランジット(英: microtransit)は、乗客が乗車を共有するサービスである。
しかし、重要な制限は、派遣決定の長期的な影響を見落としている、その神秘的な決定である。
シミュレーションインフォームド強化学習(RL)手法を提案する。
- 参考スコア(独自算出の注目度): 1.7403133838762448
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Ride-pooling, also known as ride-sharing, shared ride-hailing, or microtransit, is a service wherein passengers share rides. This service can reduce costs for both passengers and operators and reduce congestion and environmental impacts. A key limitation, however, is its myopic decision-making, which overlooks long-term effects of dispatch decisions. To address this, we propose a simulation-informed reinforcement learning (RL) approach. While RL has been widely studied in the context of ride-hailing systems, its application in ride-pooling systems has been less explored. In this study, we extend the learning and planning framework of Xu et al. (2018) from ride-hailing to ride-pooling by embedding a ride-pooling simulation within the learning mechanism to enable non-myopic decision-making. In addition, we propose a complementary policy for rebalancing idle vehicles. By employing n-step temporal difference learning on simulated experiences, we derive spatiotemporal state values and subsequently evaluate the effectiveness of the non-myopic policy using NYC taxi request data. Results demonstrate that the non-myopic policy for matching can increase the service rate by up to 8.4% versus a myopic policy while reducing both in-vehicle and wait times for passengers. Furthermore, the proposed non-myopic policy can decrease fleet size by over 25% compared to a myopic policy, while maintaining the same level of performance, thereby offering significant cost savings for operators. Incorporating rebalancing operations into the proposed framework cuts wait time by up to 27.3%, in-vehicle time by 12.5%, and raises service rate by 15.1% compared to using the framework for matching decisions alone at the cost of increased vehicle minutes traveled per passenger.
- Abstract(参考訳): ライドプール(英: Ride-pooling)またはライドシェアリング(英: ride-sharing)、シェアリング(英: shared ride-hailing)またはマイクロトランジット(英: microtransit)は、乗務員が乗務するサービスである。
このサービスは、乗客とオペレーターの両方のコストを削減し、混雑と環境への影響を減らすことができる。
しかし、重要な制限は、派遣決定の長期的な影響を見落としている、その神秘的な意思決定である。
そこで本研究では,シミュレーションインフォームド強化学習(RL)手法を提案する。
RLは配車システムの文脈で広く研究されているが、配車システムの応用は研究されていない。
本研究では,Xu et al (2018) の学習と計画の枠組みを,学習機構内に配車シミュレーションを組み込んで,非筋力的な意思決定を可能にすることによって,配車から配車へと拡張する。
また, アイドル車の再バランスのための補完策を提案する。
n段階の時間差学習を模擬体験に適用することにより、時空間状態の値を導出し、その後、NYCのタクシー要求データを用いて非筋電図ポリシーの有効性を評価する。
その結果、車内・待ち時間の双方を減らしながら、ミオピックポリシーと比較して、マッチングの非ミオピックポリシーはサービス率を最大8.4%向上させることができることがわかった。
さらに、提案した非ミオピック政策は、同じレベルの性能を維持しつつも、ミオピック政策と比較して、艦隊の規模を25%以上削減できるため、運用者にとって大幅なコスト削減が可能である。
提案した枠組みに再バランス運用を組み込むことで、待ち時間を最大27.3%削減し、車内時間を12.5%削減し、乗客1人あたりの移動時間の増加を犠牲にして、決定の一致に単独で使用する場合と比較して、サービスレートを15.1%向上させる。
関連論文リスト
- Timing the Match: A Deep Reinforcement Learning Approach for Ride-Hailing and Ride-Pooling Services [17.143444035884386]
本稿では、リアルタイムシステム条件に基づいていつマッチングを行うかを決定するために、深層強化学習(RL)を用いた適応型ライドマッチング戦略を提案する。
本手法は,システム状態の評価を継続的に行い,全乗客待ち時間を最小化するタイミングでマッチングを実行する。
論文 参考訳(メタデータ) (2025-03-17T14:07:58Z) - Fairness-Enhancing Vehicle Rebalancing in the Ride-hailing System [7.531863938542706]
配車産業の急速な成長は、世界中の都市交通に革命をもたらした。
その利益にもかかわらず、保存されていない地域社会が手頃な価格の配車サービスへのアクセシビリティに制限されているため、株式の懸念が生じる。
本稿では,新しい車両再バランス手法により,アルゴリズムとライダーの公正性を両立することに焦点を当てる。
論文 参考訳(メタデータ) (2023-12-29T23:02:34Z) - Fair collaborative vehicle routing: A deep multi-agent reinforcement
learning approach [49.00137468773683]
協力的な車両ルーティングは、キャリアがそれぞれの輸送要求を共有し、互いに代表して輸送要求を実行することで協力するときに発生する。
従来のゲーム理論解の概念は、特性関数がエージェントの数とともに指数関数的にスケールするので、計算に費用がかかる。
我々は,この問題を,深層マルチエージェント強化学習を用いて解決した連立交渉ゲームとしてモデル化することを提案する。
論文 参考訳(メタデータ) (2023-10-26T15:42:29Z) - Coalitional Bargaining via Reinforcement Learning: An Application to
Collaborative Vehicle Routing [49.00137468773683]
コラボレーティブ・ビークル・ルーティング(Collaborative Vehicle Routing)とは、デリバリ情報を共有し、互いに代理してデリバリ要求を実行することで、デリバリ企業が協力する場所である。
これによりスケールの経済が達成され、コスト、温室効果ガスの排出、道路渋滞が減少する。
しかし、どの会社が誰とパートナーし、それぞれの会社がどれだけの報酬を支払うべきか?
シャプリー値(英語版)やヌクレオルス(英語版)のような伝統的なゲーム理論解の概念は、協調車両ルーティング(英語版)の現実問題に対して計算することが困難である。
論文 参考訳(メタデータ) (2023-10-26T15:04:23Z) - Studying the Impact of Semi-Cooperative Drivers on Overall Highway Flow [76.38515853201116]
半協調行動は、人間ドライバーの本質的な性質であり、自律運転には考慮すべきである。
新たな自律型プランナーは、社会的に準拠した軌道を生成するために、人間のドライバーの社会的価値指向(SVO)を考慮することができる。
エージェントが反復的最適応答のゲーム理論バージョンをデプロイする暗黙的な半協調運転について検討する。
論文 参考訳(メタデータ) (2023-04-23T16:01:36Z) - Improving Operational Efficiency In EV Ridepooling Fleets By Predictive
Exploitation of Idle Times [0.0]
Idle Time Exploitation (ITX) と呼ばれる1つのオペレーターによる配車サービスのリアルタイム予測充電方式を提案する。
ITXは、車両がアイドル状態にある期間を予測し、これらの期間を利用してエネルギーを収穫する。
グラフ畳み込みネットワーク(Graph Convolutional Networks)と線形代入アルゴリズムを用いて、車両と充電ステーションの最適なペアを考案する。
論文 参考訳(メタデータ) (2022-08-30T08:41:40Z) - Efficiency, Fairness, and Stability in Non-Commercial Peer-to-Peer
Ridesharing [84.47891614815325]
本稿は、P2Pライドシェアリングにおける中核的な問題である、ライダーとドライバーのマッチングに焦点を当てる。
P2Pライドシェアリングにおける公平性と安定性の新たな概念を紹介する。
結果は、妥当な計算時間で、公平で安定した解が得られることを示唆している。
論文 参考訳(メタデータ) (2021-10-04T02:14:49Z) - Real-world Ride-hailing Vehicle Repositioning using Deep Reinforcement
Learning [52.2663102239029]
アイドルヘイリングプラットフォーム上での現実世界の車両の深層強化学習と意思決定時間計画に基づく新しい実用的枠組みを提示する。
本手法は,重み付きバッチ学習アルゴリズムを用いて乗車時の状態値関数を学習する。
配車シミュレーション環境におけるベースラインでアルゴリズムをベンチマークし、収益効率の向上における優位性を実証します。
論文 参考訳(メタデータ) (2021-03-08T05:34:05Z) - Equilibrium Inverse Reinforcement Learning for Ride-hailing Vehicle
Network [1.599072005190786]
疎結合グラフにおける客車マッチングの問題を定式化する。
マルチエージェント環境における平衡ポリシを導出するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-13T03:18:44Z) - Vehicular Cooperative Perception Through Action Branching and Federated
Reinforcement Learning [101.64598586454571]
強化学習に基づく車両関連、リソースブロック(RB)割り当て、協調認識メッセージ(CPM)のコンテンツ選択を可能にする新しいフレームワークが提案されている。
車両全体のトレーニングプロセスをスピードアップするために、フェデレーションRLアプローチが導入されます。
その結果、フェデレーションRLはトレーニングプロセスを改善し、非フェデレーションアプローチと同じ時間内により良いポリシーを達成できることが示された。
論文 参考訳(メタデータ) (2020-12-07T02:09:15Z) - Real-time and Large-scale Fleet Allocation of Autonomous Taxis: A Case
Study in New York Manhattan Island [14.501650948647324]
従来のモデルは、供給(自動タクシー)と需要(トリップ)の不均衡に対処するために、利用可能な船隊を効率的に割り当てることに失敗した
艦隊配置決定をモデル化するために、制約付きマルチエージェントマルコフ決定プロセス(CMMDP)を用いる。
また、カラム生成アルゴリズムを利用して、大規模に効率性と最適性を保証する。
論文 参考訳(メタデータ) (2020-09-06T16:00:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。