論文の概要: Coordinating Ride-Pooling with Public Transit using Reward-Guided Conservative Q-Learning: An Offline Training and Online Fine-Tuning Reinforcement Learning Framework
- arxiv url: http://arxiv.org/abs/2501.14199v1
- Date: Fri, 24 Jan 2025 03:05:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:57:32.562035
- Title: Coordinating Ride-Pooling with Public Transit using Reward-Guided Conservative Q-Learning: An Offline Training and Online Fine-Tuning Reinforcement Learning Framework
- Title(参考訳): Reward-Guided conservative Q-Learning を用いた公共交通機関との連携:オフライン学習とオンラインファインチューニング強化学習フレームワーク
- Authors: Yulong Hu, Tingting Dong, Sen Li,
- Abstract要約: 本稿では,Reward-Guided conservative Q-learning(RG-CQL)と呼ばれる新しい強化学習フレームワークを提案する。
本稿では,マルチモーダル交通システムの最適運用決定を学習するためのオフライントレーニングとオンライン微調整フレームワークを提案する。
私たちの革新的なオフライントレーニングとオンラインファインチューニングフレームワークは、データ効率を81.3%向上させています。
- 参考スコア(独自算出の注目度): 8.212024590297895
- License:
- Abstract: This paper introduces a novel reinforcement learning (RL) framework, termed Reward-Guided Conservative Q-learning (RG-CQL), to enhance coordination between ride-pooling and public transit within a multimodal transportation network. We model each ride-pooling vehicle as an agent governed by a Markov Decision Process (MDP) and propose an offline training and online fine-tuning RL framework to learn the optimal operational decisions of the multimodal transportation systems, including rider-vehicle matching, selection of drop-off locations for passengers, and vehicle routing decisions, with improved data efficiency. During the offline training phase, we develop a Conservative Double Deep Q Network (CDDQN) as the action executor and a supervised learning-based reward estimator, termed the Guider Network, to extract valuable insights into action-reward relationships from data batches. In the online fine-tuning phase, the Guider Network serves as an exploration guide, aiding CDDQN in effectively and conservatively exploring unknown state-action pairs. The efficacy of our algorithm is demonstrated through a realistic case study using real-world data from Manhattan. We show that integrating ride-pooling with public transit outperforms two benchmark cases solo rides coordinated with transit and ride-pooling without transit coordination by 17% and 22% in the achieved system rewards, respectively. Furthermore, our innovative offline training and online fine-tuning framework offers a remarkable 81.3% improvement in data efficiency compared to traditional online RL methods with adequate exploration budgets, with a 4.3% increase in total rewards and a 5.6% reduction in overestimation errors. Experimental results further demonstrate that RG-CQL effectively addresses the challenges of transitioning from offline to online RL in large-scale ride-pooling systems integrated with transit.
- Abstract(参考訳): 本稿では,リワード誘導型保守的Q-ラーニング(RG-CQL)と呼ばれる新しい強化学習(RL)フレームワークを提案する。
我々は,各配車車両を,Markov Decision Process (MDP) が管理するエージェントとしてモデル化し,ライダーと車両のマッチング,乗客の降車場所の選択,車両の経路決定などのマルチモーダル輸送システムの最適運用決定を,データ効率を向上して学習するためのオフライントレーニングおよびオンライン微調整RLフレームワークを提案する。
オフライントレーニングの段階では,行動実行者および教師付き学習ベース報酬推定器としてCDDQN(Reserve Double Deep Q Network)を開発し,データバッチから行動回帰関係に関する貴重な知見を抽出する。
オンラインの微調整の段階では、ガイドネットワークはCDDQNを効果的かつ保守的に未知の状態対を探索するための探索ガイドとして機能する。
本アルゴリズムの有効性は,マンハッタンの実世界データを用いた実例研究によって実証された。
公共交通機関との相乗りは, 乗り継ぎ調整なしでの乗り継ぎと乗り合いを協調する単独走行を, システム報酬の17%と22%の2つのベンチマークで比較した。
さらに、我々の革新的なオフライントレーニングとオンライン微調整フレームワークは、適切な調査予算を持つ従来のオンラインRL手法と比較して、データ効率が81.3%向上し、合計報酬が4.3%増加し、過大評価エラーが5.6%減少した。
さらに実験の結果、RG-CQLは、トランジットと統合された大規模配車システムにおいて、オフラインからオンラインRLへの移行という課題に効果的に対処することを示した。
関連論文リスト
- Communication-Aware Reinforcement Learning for Cooperative Adaptive Cruise Control [15.31488551912888]
強化学習(RL)はCACCにおける複雑な意思決定プロセスの最適化に有効であることが証明されている。
MARLは、複数のCAV間で協調的な動作を可能にすることで、顕著な可能性を示している。
これらの課題に対処するために,コミュニケーション対応強化学習(CA-RL)を提案する。
論文 参考訳(メタデータ) (2024-07-12T03:28:24Z) - Real-time system optimal traffic routing under uncertainties -- Can physics models boost reinforcement learning? [2.298129181817085]
本稿では,強化学習を物理モデルに統合し,性能,信頼性,解釈可能性を向上させるアルゴリズムであるTransRLを提案する。
物理モデルからの情報を活用することで、TransRLは最先端の強化学習アルゴリズムより一貫して優れている。
論文 参考訳(メタデータ) (2024-07-10T04:53:26Z) - Short Run Transit Route Planning Decision Support System Using a Deep
Learning-Based Weighted Graph [0.0]
本稿では,公共交通機関の計画立案者が短期間の経路改善を迅速に特定できるような,意思決定支援システムのための新しいディープラーニング手法を提案する。
本手法は,日中の2つの停留所間の経路をシームレスに調整することにより,時間を短縮し,PTサービスを増強する。
本研究では,道路セグメントの遅延値を予測するためのディープラーニングモデルを訓練し,これらの遅延値を輸送グラフのエッジ重みとして利用することにより,効率的な経路探索を実現する。
論文 参考訳(メタデータ) (2023-08-24T14:37:55Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Offline Meta-Reinforcement Learning with Online Self-Supervision [66.42016534065276]
適応ポリシをメタトレーニングするための報酬付きオフラインデータを用いたハイブリッドオフラインメタRLアルゴリズムを提案する。
提案手法では,オフラインデータを用いて報酬関数の分布を学習し,さらにオンラインデータに対する自己監督型報酬ラベルにサンプリングする。
追加データと自己生成報酬を用いることで、エージェントの一般化能力が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2021-07-08T17:01:32Z) - A Deep Value-network Based Approach for Multi-Driver Order Dispatching [55.36656442934531]
そこで本研究では,注文発送のための深層強化学習に基づくソリューションを提案する。
DiDiの配車プラットフォーム上で大規模なオンラインA/Bテストを実施している。
その結果,CVNetは近年提案されているディスパッチ手法よりも一貫して優れていた。
論文 参考訳(メタデータ) (2021-06-08T16:27:04Z) - Value Function is All You Need: A Unified Learning Framework for Ride
Hailing Platforms [57.21078336887961]
DiDi、Uber、Lyftなどの大型配車プラットフォームは、都市内の数万台の車両を1日中数百万の乗車要求に接続している。
両課題に対処するための統合価値に基づく動的学習フレームワーク(V1D3)を提案する。
論文 参考訳(メタデータ) (2021-05-18T19:22:24Z) - Vehicular Cooperative Perception Through Action Branching and Federated
Reinforcement Learning [101.64598586454571]
強化学習に基づく車両関連、リソースブロック(RB)割り当て、協調認識メッセージ(CPM)のコンテンツ選択を可能にする新しいフレームワークが提案されている。
車両全体のトレーニングプロセスをスピードアップするために、フェデレーションRLアプローチが導入されます。
その結果、フェデレーションRLはトレーニングプロセスを改善し、非フェデレーションアプローチと同じ時間内により良いポリシーを達成できることが示された。
論文 参考訳(メタデータ) (2020-12-07T02:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。