論文の概要: AdaPool: A Diurnal-Adaptive Fleet Management Framework using Model-Free
Deep Reinforcement Learning and Change Point Detection
- arxiv url: http://arxiv.org/abs/2104.00203v1
- Date: Thu, 1 Apr 2021 02:14:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 13:29:24.070885
- Title: AdaPool: A Diurnal-Adaptive Fleet Management Framework using Model-Free
Deep Reinforcement Learning and Change Point Detection
- Title(参考訳): AdaPool: モデルレスディープ強化学習と変更点検出を用いた日次適応フリート管理フレームワーク
- Authors: Marina Haliem, Vaneet Aggarwal and Bharat Bhargava
- Abstract要約: 本稿では,車いすによる乗り合い環境における日中パターンを認識・適応できる適応型モデルフリー深部強化手法を提案する。
本論文では, 配車における適応論理に加えて, 動的かつ需要に応じた車両通行者マッチングと経路計画の枠組みを提案する。
- 参考スコア(独自算出の注目度): 34.77250498401055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces an adaptive model-free deep reinforcement approach that
can recognize and adapt to the diurnal patterns in the ride-sharing environment
with car-pooling. Deep Reinforcement Learning (RL) suffers from catastrophic
forgetting due to being agnostic to the timescale of changes in the
distribution of experiences. Although RL algorithms are guaranteed to converge
to optimal policies in Markov decision processes (MDPs), this only holds in the
presence of static environments. However, this assumption is very restrictive.
In many real-world problems like ride-sharing, traffic control, etc., we are
dealing with highly dynamic environments, where RL methods yield only
sub-optimal decisions. To mitigate this problem in highly dynamic environments,
we (1) adopt an online Dirichlet change point detection (ODCP) algorithm to
detect the changes in the distribution of experiences, (2) develop a Deep Q
Network (DQN) agent that is capable of recognizing diurnal patterns and making
informed dispatching decisions according to the changes in the underlying
environment. Rather than fixing patterns by time of week, the proposed approach
automatically detects that the MDP has changed, and uses the results of the new
model. In addition to the adaptation logic in dispatching, this paper also
proposes a dynamic, demand-aware vehicle-passenger matching and route planning
framework that dynamically generates optimal routes for each vehicle based on
online demand, vehicle capacities, and locations. Evaluation on New York City
Taxi public dataset shows the effectiveness of our approach in improving the
fleet utilization, where less than 50% of the fleet are utilized to serve the
demand of up to 90% of the requests, while maximizing profits and minimizing
idle times.
- Abstract(参考訳): 本稿では,車いすによる乗り合い環境における日中パターンを認識・適応できる適応型モデルフリー深部強化手法を提案する。
深層強化学習(Deep Reinforcement Learning, RL)は、経験の分布の変化の時間スケールに依存しないため、破滅的な忘れ込みに悩まされる。
RLアルゴリズムはマルコフ決定過程(MDP)において最適ポリシーに収束することが保証されているが、これは静的環境の存在にのみ当てはまる。
しかし、この仮定は非常に限定的である。
ライドシェアリングやトラヒックコントロールといった現実の多くの問題では、RLメソッドが最適以下の決定しか得られない、非常にダイナミックな環境に対処しています。
この問題を高ダイナミックな環境で緩和するために、(1)経験の分布の変化を検出するオンラインディリクレ変化点検出(ODCP)アルゴリズムを採用し、(2)日中のパターンを認識し、基礎環境の変化に応じて情報伝達決定を行うディープQネットワーク(DQN)エージェントを開発した。
提案手法は,週毎にパターンを修正するのではなく,MDPが変化したことを自動で検出し,新しいモデルの結果を使用する。
また, 配車時の適応論理に加えて, オンライン需要, 車両能力, 位置に基づいて, 車両毎の最適経路を動的に生成する動的かつ需要対応の車両通行者マッチングおよび経路計画フレームワークを提案する。
ニューヨーク市税の公的データセットの評価は、当社のアプローチが艦隊利用の改善に有効であることを示しており、艦隊の50%未満は、最大90%の要求に応えつつ、利益の最大化とアイドルタイムの最小化を実現している。
関連論文リスト
- End-to-end Driving in High-Interaction Traffic Scenarios with Reinforcement Learning [24.578178308010912]
これらの問題に対処するために,Ranmble というエンドツーエンドモデルベース RL アルゴリズムを提案する。
環境のダイナミックスモデルを学ぶことで、Rambleは今後のトラフィックイベントを予測し、より情報に富んだ戦略的決定を下すことができる。
Rambleは、CARLA Leaderboard 2.0におけるルート完了率と運転スコアに関する最先端のパフォーマンスを達成し、複雑でダイナミックな交通状況を管理する上での有効性を示している。
論文 参考訳(メタデータ) (2024-10-03T06:45:59Z) - A Graph-based Adversarial Imitation Learning Framework for Reliable & Realtime Fleet Scheduling in Urban Air Mobility [5.19664437943693]
本稿では,艦隊スケジューリング問題の包括的最適化について述べる。
また、代替ソリューションのアプローチの必要性も認識している。
新しい模倣アプローチは、目に見えない最悪のシナリオにおいて、パフォーマンスと顕著な改善を実現する。
論文 参考訳(メタデータ) (2024-07-16T18:51:24Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - Unsupervised Domain Adaptation for Self-Driving from Past Traversal
Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。
提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。
実世界のデータセットの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-21T15:00:31Z) - Adaptive Resource Allocation for Virtualized Base Stations in O-RAN with
Online Learning [60.17407932691429]
基地局(vBS)を備えたオープンラジオアクセスネットワークシステムは、柔軟性の向上、コスト削減、ベンダーの多様性、相互運用性のメリットを提供する。
本研究では,予期せぬ「混み合う」環境下であっても,効率的なスループットとvBSエネルギー消費のバランスをとるオンライン学習アルゴリズムを提案する。
提案手法は, 課題のある環境においても, 平均最適性ギャップをゼロにすることで, サブ線形後悔を実現する。
論文 参考訳(メタデータ) (2023-09-04T17:30:21Z) - Integrated Decision and Control for High-Level Automated Vehicles by
Mixed Policy Gradient and Its Experiment Verification [10.393343763237452]
本稿では,IDC(Integrated Decision and Control)に基づく自己進化型意思決定システムを提案する。
制約付き混合ポリシー勾配 (CMPG) と呼ばれるRLアルゴリズムは、IDCの駆動ポリシーを継続的に更新するために提案される。
実験結果から, モデルに基づく手法よりも運転能力の向上が期待できることがわかった。
論文 参考訳(メタデータ) (2022-10-19T14:58:41Z) - Off-line approximate dynamic programming for the vehicle routing problem
with stochastic customers and demands via decentralized decision-making [0.0]
本稿では,顧客の位置と需要が不確実な車両経路問題(VRP)の変種について検討する。
目的は、車両の容量と時間制限を満たしながら、提供された要求を最大化することである。
本稿では,Replay MemoryやDouble Q Networkといった最先端のアクセラレーション技術を用いたQラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-09-21T14:28:09Z) - MetaVIM: Meta Variationally Intrinsic Motivated Reinforcement Learning for Decentralized Traffic Signal Control [54.162449208797334]
交通信号制御は、交差点を横断する交通信号を調整し、地域や都市の交通効率を向上させることを目的としている。
近年,交通信号制御に深部強化学習(RL)を適用し,各信号がエージェントとみなされる有望な性能を示した。
本稿では,近隣情報を考慮した各交差点の分散化政策を潜時的に学習するメタ変動固有モチベーション(MetaVIM)RL法を提案する。
論文 参考訳(メタデータ) (2021-01-04T03:06:08Z) - Meta Reinforcement Learning-Based Lane Change Strategy for Autonomous
Vehicles [11.180588185127892]
教師付き学習アルゴリズムは、大量のラベル付きデータをトレーニングすることで、新しい環境に一般化することができる。
しばしば、新しい環境ごとに十分なデータを得るために、実用的または費用を抑えることができる。
エージェントの一般化能力を向上させるメタ強化学習(MRL)法を提案する。
論文 参考訳(メタデータ) (2020-08-28T02:57:11Z) - Meta-Reinforcement Learning for Trajectory Design in Wireless UAV
Networks [151.65541208130995]
ドローン基地局(DBS)は、要求が動的で予測不可能な地上ユーザーへのアップリンク接続を提供するために派遣される。
この場合、DBSの軌道は動的ユーザアクセス要求を満たすように適応的に調整されなければならない。
新たな環境に遭遇したDBSの軌道に適応するために,メタラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-25T20:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。