論文の概要: A Reinforcement Learning Approach for Dynamic Rebalancing in
Bike-Sharing System
- arxiv url: http://arxiv.org/abs/2402.03589v1
- Date: Mon, 5 Feb 2024 23:46:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 17:23:21.812807
- Title: A Reinforcement Learning Approach for Dynamic Rebalancing in
Bike-Sharing System
- Title(参考訳): 自転車シェアリングシステムにおける動的リバランシングのための強化学習手法
- Authors: Jiaqi Liang, Sanjay Dominik Jena, Defeng Liu, Andrea Lodi
- Abstract要約: 自転車シェアリングシステムはエコフレンドリーな都市移動を提供し、交通渋滞と健康的な生活様式の緩和に貢献している。
駅間で自転車を再分配するための車両を用いた効果的な再バランス戦略の開発は、オペレーターにとって非常に重要である。
本稿では,複数の車両との動的再バランス問題に対する時間的強化学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 11.237099288412558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bike-Sharing Systems provide eco-friendly urban mobility, contributing to the
alleviation of traffic congestion and to healthier lifestyles. Efficiently
operating such systems and maintaining high customer satisfaction is
challenging due to the stochastic nature of trip demand, leading to full or
empty stations. Devising effective rebalancing strategies using vehicles to
redistribute bikes among stations is therefore of uttermost importance for
operators. As a promising alternative to classical mathematical optimization,
reinforcement learning is gaining ground to solve sequential decision-making
problems. This paper introduces a spatio-temporal reinforcement learning
algorithm for the dynamic rebalancing problem with multiple vehicles. We first
formulate the problem as a Multi-agent Markov Decision Process in a continuous
time framework. This allows for independent and cooperative vehicle
rebalancing, eliminating the impractical restriction of time-discretized models
where vehicle departures are synchronized. A comprehensive simulator under the
first-arrive-first-serve rule is then developed to facilitate the learning
process by computing immediate rewards under diverse demand scenarios. To
estimate the value function and learn the rebalancing policy, various Deep
Q-Network configurations are tested, minimizing the lost demand. Experiments
are carried out on various datasets generated from historical data, affected by
both temporal and weather factors. The proposed algorithms outperform
benchmarks, including a multi-period Mixed-Integer Programming model, in terms
of lost demand. Once trained, it yields immediate decisions, making it suitable
for real-time applications. Our work offers practical insights for operators
and enriches the integration of reinforcement learning into dynamic rebalancing
problems, paving the way for more intelligent and robust urban mobility
solutions.
- Abstract(参考訳): 自転車シェアリングシステムはエコフレンドリーな都市移動を提供し、交通渋滞の緩和と健康的なライフスタイルに寄与している。
このようなシステムを効果的に運用し、高い顧客満足度を維持することは、旅行需要の確率的な性質から困難であり、フルまたは空の駅につながる。
駅間で自転車を再分配するための車両を用いた効果的な再バランス戦略の開発は、オペレーターにとって非常に重要である。
古典的な数学的最適化の代替として、逐次的な意思決定問題を解決するために強化学習が根底にある。
本稿では,複数車両の動的リバランス問題に対する時空間強化学習アルゴリズムを提案する。
まず,問題をマルチエージェントマルコフ決定プロセスとして,連続時間枠組で定式化する。
これにより、独立かつ協調的な車両のリバランスが可能となり、車両の出発が同期される時間離散モデルの非現実的制限が排除される。
多様な需要シナリオで即時報酬を計算し,学習プロセスを容易にするために,第1アーリブ・ファースト・サーベルールに基づく総合シミュレータを開発した。
価値関数を推定し、再バランスポリシーを学ぶために、様々な深いqネットワーク構成をテストし、失われた需要を最小限にする。
過去のデータから生成された様々なデータセットで実験を行い、時間的要因と気象要因の両方に影響される。
提案アルゴリズムは、需要の減少の観点から、マルチ周期混合整数計画モデルを含むベンチマークより優れている。
トレーニングが完了すると、即時決定が得られ、リアルタイムアプリケーションに適合する。
我々の研究は、オペレーターに実践的な洞察を提供し、強化学習を動的リバランス問題に統合し、よりインテリジェントで堅牢な都市モビリティソリューションへの道を開く。
関連論文リスト
- Real-time system optimal traffic routing under uncertainties -- Can physics models boost reinforcement learning? [2.298129181817085]
本稿では,強化学習を物理モデルに統合し,性能,信頼性,解釈可能性を向上させるアルゴリズムであるTransRLを提案する。
物理モデルからの情報を活用することで、TransRLは最先端の強化学習アルゴリズムより一貫して優れている。
論文 参考訳(メタデータ) (2024-07-10T04:53:26Z) - Dual Policy Reinforcement Learning for Real-time Rebalancing in Bike-sharing Systems [13.083156894368532]
自転車シェアリングシステムは、交通渋滞を緩和し、より健康的なライフスタイルを促進する上で重要な役割を担っている。
本研究では,車両群によるリアルタイムリバランス問題に対処するための新しいアプローチを提案する。
在庫とルーティングの決定を分離する、二重ポリシー強化学習アルゴリズムを採用している。
論文 参考訳(メタデータ) (2024-06-02T21:05:23Z) - Eco-Driving Control of Connected and Automated Vehicles using Neural
Network based Rollout [0.0]
接続された自動運転車は、エネルギー消費を最小化する可能性がある。
既存の決定論的手法は、一般に高い計算とメモリ要求に悩まされる。
本研究ではニューラルネットワークを介して実装された階層型マルチ水平最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-16T23:13:51Z) - Actively Learning Costly Reward Functions for Reinforcement Learning [56.34005280792013]
複雑な実世界の環境でエージェントを訓練することは、桁違いに高速であることを示す。
強化学習の手法を新しい領域に適用することにより、興味深く非自明な解を見つけることができることを示す。
論文 参考訳(メタデータ) (2022-11-23T19:17:20Z) - Scalable Vehicle Re-Identification via Self-Supervision [66.2562538902156]
自動車再同定は、都市規模の車両分析システムにおいて重要な要素の1つである。
車両再設計のための最先端のソリューションの多くは、既存のre-idベンチマークの精度向上に重点を置いており、計算の複雑さを無視することが多い。
推論時間に1つのネットワークのみを使用する自己教師型学習によって、シンプルで効果的なハイブリッドソリューションを提案する。
論文 参考訳(メタデータ) (2022-05-16T12:14:42Z) - Value Function is All You Need: A Unified Learning Framework for Ride
Hailing Platforms [57.21078336887961]
DiDi、Uber、Lyftなどの大型配車プラットフォームは、都市内の数万台の車両を1日中数百万の乗車要求に接続している。
両課題に対処するための統合価値に基づく動的学習フレームワーク(V1D3)を提案する。
論文 参考訳(メタデータ) (2021-05-18T19:22:24Z) - Real-world Ride-hailing Vehicle Repositioning using Deep Reinforcement
Learning [52.2663102239029]
アイドルヘイリングプラットフォーム上での現実世界の車両の深層強化学習と意思決定時間計画に基づく新しい実用的枠組みを提示する。
本手法は,重み付きバッチ学習アルゴリズムを用いて乗車時の状態値関数を学習する。
配車シミュレーション環境におけるベースラインでアルゴリズムをベンチマークし、収益効率の向上における優位性を実証します。
論文 参考訳(メタデータ) (2021-03-08T05:34:05Z) - Equilibrium Inverse Reinforcement Learning for Ride-hailing Vehicle
Network [1.599072005190786]
疎結合グラフにおける客車マッチングの問題を定式化する。
マルチエージェント環境における平衡ポリシを導出するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-13T03:18:44Z) - Data-Efficient Learning for Complex and Real-Time Physical Problem
Solving using Augmented Simulation [49.631034790080406]
本稿では,大理石を円形迷路の中心まで航行する作業について述べる。
実システムと対話する数分以内に,複雑な環境で大理石を動かすことを学習するモデルを提案する。
論文 参考訳(メタデータ) (2020-11-14T02:03:08Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z) - Multi-Vehicle Routing Problems with Soft Time Windows: A Multi-Agent
Reinforcement Learning Approach [9.717648122961483]
ソフトタイムウインドウ(MVRPSTW)を用いたマルチ車両ルーティング問題は、都市ロジスティクスシステムにおいて不可欠である。
従来の手法は計算効率と解の質のジレンマを引き起こす。
そこで本研究では,ルーティング問題の解決に要する時間的オフライントレーニングのメリットを即時評価する,Multi-Agent Attention Modelと呼ばれる新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-13T14:26:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。