論文の概要: RL-MSA: a Reinforcement Learning-based Multi-line bus Scheduling
Approach
- arxiv url: http://arxiv.org/abs/2403.06466v1
- Date: Mon, 11 Mar 2024 07:07:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 19:59:53.597517
- Title: RL-MSA: a Reinforcement Learning-based Multi-line bus Scheduling
Approach
- Title(参考訳): RL-MSA:強化学習に基づくマルチラインバススケジューリング手法
- Authors: Yingzhuo Liu
- Abstract要約: 既存のアプローチは、通常、オフラインでバススケジューリングスキームを生成し、そのスキームに従ってバスをスケジュールする。
本稿では,MLBSPをマルコフ決定過程(MDP)としてモデル化する。
RL-MSA(Reinforcement Learning-based Multi-line bus Scheduling Approach)は,オフラインとオンラインの両フェーズでバススケジューリングを行うための手法である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multiple Line Bus Scheduling Problem (MLBSP) is vital to save operational
cost of bus company and guarantee service quality for passengers. Existing
approaches typically generate a bus scheduling scheme in an offline manner and
then schedule buses according to the scheme. In practice, uncertain events such
as traffic congestion occur frequently, which may make the pre-determined bus
scheduling scheme infeasible. In this paper, MLBSP is modeled as a Markov
Decision Process (MDP). A Reinforcement Learning-based Multi-line bus
Scheduling Approach (RL-MSA) is proposed for bus scheduling at both the offline
and online phases. At the offline phase, deadhead decision is integrated into
bus selection decision for the first time to simplify the learning problem. At
the online phase, deadhead decision is made through a time window mechanism
based on the policy learned at the offline phase. We develop several new and
useful state features including the features for control points, bus lines and
buses. A bus priority screening mechanism is invented to construct bus-related
features. Considering the interests of both the bus company and passengers, a
reward function combining the final reward and the step-wise reward is devised.
Experiments at the offline phase demonstrate that the number of buses used of
RL-MSA is decreased compared with offline optimization approaches. At the
online phase, RL-MSA can cover all departure times in a timetable (i.e.,
service quality) without increasing the number of buses used (i.e., operational
cost).
- Abstract(参考訳): 複数路線バススケジューリング問題(MLBSP)は、バス会社の運用コストを削減し、乗客のサービス品質を保証するために不可欠である。
既存のアプローチは、通常、オフラインでバススケジューリングスキームを生成し、そのスキームに従ってバスをスケジュールする。
実際には、渋滞などの不確実なイベントが頻繁に発生し、事前決定されたバス計画が実現不可能になる可能性がある。
本稿では,MLBSPをマルコフ決定過程(MDP)としてモデル化する。
オフラインとオンラインの両方でバススケジューリングを行うための強化学習型マルチラインバススケジューリング手法(rl-msa)を提案する。
オフライン段階では、デッドヘッド決定を初めてバス選択決定に統合して学習問題を単純化する。
オンラインフェーズでは、オフラインフェーズで学んだポリシーに基づいたタイムウィンドウ機構によってデッドヘッド決定が行われる。
我々は,制御ポイント,バス路線,バスなどの機能を含む,新しく有用な状態機能をいくつか開発する。
バス関連機能を構築するために、バス優先スクリーニング機構を発明する。
バス会社と乗客の双方の利益を考えると、最終報酬とステップワイド報酬を組み合わせた報酬機能が考案されている。
オフライン位相における実験により, RL-MSAを使用するバスの数は, オフライン最適化手法と比較して減少した。
オンライン段階では、RL-MSAは使用したバスの数(運用コスト)を増やすことなく、タイムテーブル(サービス品質)ですべての出発時間をカバーできる。
関連論文リスト
- ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Real-Time Bus Arrival Prediction: A Deep Learning Approach for Enhanced
Urban Mobility [2.1374208474242815]
一般的な課題は、実際のバス到着時刻と予定された時刻とのミスマッチであり、固定されたスケジュールの混乱につながる。
本研究は,様々な交通機関(駅)におけるバス到着時刻を予測するための,革新的なAIに基づくデータ駆動手法を提案する。
完全に接続されたニューラルネットワークの展開により,公共バスの交通システムの精度と効率が向上する。
論文 参考訳(メタデータ) (2023-03-27T16:45:22Z) - Offline Vehicle Routing Problem with Online Bookings: A Novel Problem
Formulation with Applications to Paratransit [5.8521525578624916]
オンライン予約によるオフライン車両ルーティング問題の新しい定式化について紹介する。
この問題は、大量の要求を考えるという複雑さに直面しているため、非常に困難である。
本稿では,任意の時間アルゴリズムとリアルタイム決定のための学習ベースのポリシーを組み合わせた新しい計算手法を提案する。
論文 参考訳(メタデータ) (2022-04-25T23:17:34Z) - AI-aided Traffic Control Scheme for M2M Communications in the Internet
of Vehicles [61.21359293642559]
交通のダイナミクスと異なるIoVアプリケーションの異種要求は、既存のほとんどの研究では考慮されていない。
本稿では,ハイブリッド交通制御方式とPPO法を併用して検討する。
論文 参考訳(メタデータ) (2022-03-05T10:54:05Z) - Design-Bench: Benchmarks for Data-Driven Offline Model-Based
Optimization [82.02008764719896]
ブラックボックスモデルに基づく最適化問題は、タンパク質、DNA配列、航空機、ロボットの設計など、幅広い領域で広く使われている。
本稿では,統合評価プロトコルと最近の手法の参照実装を備えたオフラインMBOのためのベンチマークであるDesign-Benchを提案する。
私たちのベンチマークには、生物学、材料科学、ロボット工学における現実世界の最適化問題から派生した、多種多様な現実的なタスクが含まれています。
論文 参考訳(メタデータ) (2022-02-17T05:33:27Z) - Visual Learning-based Planning for Continuous High-Dimensional POMDPs [81.16442127503517]
Visual Tree Search (VTS)は、オフラインで学習した生成モデルとオンラインモデルベースのPOMDP計画を組み合わせた学習と計画の手順である。
VTSは、モンテカルロの木探索プランナーにおける画像観測の可能性を予測し評価するために、一連の深部生成観測モデルを利用することで、オフラインモデルトレーニングとオンラインプランニングを橋渡しする。
VTSは、異なる観測ノイズに対して堅牢であり、オンラインのモデルベースプランニングを利用するため、再トレーニングを必要とせずに、異なる報酬構造に適応できることを示す。
論文 参考訳(メタデータ) (2021-12-17T11:53:31Z) - Robust Dynamic Bus Control: A Distributional Multi-agent Reinforcement
Learning Approach [11.168121941015013]
バスの束縛は、バスシステムの効率性と信頼性を損なう一般的な現象である。
我々は,連続制御学習のための分散MARLフレームワーク,IQNC-Mを開発した。
提案するIQNC-Mフレームワークは,様々な極端な事象を効果的に処理できることを示す。
論文 参考訳(メタデータ) (2021-11-02T23:41:09Z) - Deep Reinforcement Learning based Dynamic Optimization of Bus Timetable [4.337939117851783]
深層強化学習に基づくバス時刻動的最適化法(DRL-TO)を提案する。
DQN(Deep Q-Network)は、サービス期間中にバスサービスをディスパッチするかどうかを決定する決定モデルとして使用される。
DRL-TOは、リアルタイムの乗客フローに基づいて出発間隔を動的に決定し、車両の8$%を節約し、乗客の待ち時間の平均17$%を削減できる。
論文 参考訳(メタデータ) (2021-07-15T01:22:49Z) - Offline-to-Online Reinforcement Learning via Balanced Replay and
Pessimistic Q-Ensemble [135.6115462399788]
深いオフライン強化学習により、オフラインデータセットから強力なロボットエージェントをトレーニングすることが可能になった。
状態-作用分布シフトは、微調整中に厳しいブートストラップエラーを引き起こす可能性がある。
本稿では,オンライン上で遭遇したサンプルを優先しながら,ほぼ政治的なサンプルの使用を奨励するバランスの取れたリプレイ方式を提案する。
論文 参考訳(メタデータ) (2021-07-01T16:26:54Z) - Reducing Bus Bunching with Asynchronous Multi-Agent Reinforcement
Learning [11.168121941015013]
バスフラッキングは、バスサービスの信頼性と効率を損なう一般的な現象である。
経路レベルのバスフリート制御を非同期マルチエージェント強化学習問題として定式化する。
古典的なアクタークリティカルアーキテクチャを拡張して、非同期問題を扱う。
論文 参考訳(メタデータ) (2021-05-02T02:08:07Z) - Better than the Best: Gradient-based Improper Reinforcement Learning for
Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。
我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文 参考訳(メタデータ) (2021-05-01T10:18:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。