論文の概要: Multiagent Reinforcement Learning for Autonomous Routing and Pickup
Problem with Adaptation to Variable Demand
- arxiv url: http://arxiv.org/abs/2211.14983v1
- Date: Mon, 28 Nov 2022 01:11:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 17:02:42.958529
- Title: Multiagent Reinforcement Learning for Autonomous Routing and Pickup
Problem with Adaptation to Variable Demand
- Title(参考訳): 可変需要に適応した自律経路・ピックアップ問題に対するマルチエージェント強化学習
- Authors: Daniel Garces, Sushmita Bhattacharya, Stephanie Gil, Dimitri Bertsekas
- Abstract要約: 都市の地図に現れる要求に対処する車両群に対して、ルーティング/ピックポリシーを生成するための学習枠組みを導出する。
当社は、車両間の協調を促す政策に焦点を合わせ、要求の待ち時間を短縮する。
本稿では、現在の需要が元の妥当性領域外にある場合に、トレーニング済みのオフライン近似を切り替えるメカニズムを提案する。
- 参考スコア(独自算出の注目度): 1.8505047763172104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We derive a learning framework to generate routing/pickup policies for a
fleet of vehicles tasked with servicing stochastically appearing requests on a
city map. We focus on policies that 1) give rise to coordination amongst the
vehicles, thereby reducing wait times for servicing requests, 2) are
non-myopic, considering a-priori unknown potential future requests, and 3) can
adapt to changes in the underlying demand distribution. Specifically, we are
interested in adapting to fluctuations of actual demand conditions in urban
environments, such as on-peak vs. off-peak hours. We achieve this through a
combination of (i) online play, a lookahead optimization method that improves
the performance of rollout methods via an approximate policy iteration step,
and (ii) an offline approximation scheme that allows for adapting to changes in
the underlying demand model. In particular, we achieve adaptivity of our
learned policy to different demand distributions by quantifying a region of
validity using the q-valid radius of a Wasserstein Ambiguity Set. We propose a
mechanism for switching the originally trained offline approximation when the
current demand is outside the original validity region. In this case, we
propose to use an offline architecture, trained on a historical demand model
that is closer to the current demand in terms of Wasserstein distance. We learn
routing and pickup policies over real taxicab requests in downtown San
Francisco with high variability between on-peak and off-peak hours,
demonstrating the ability of our method to adapt to real fluctuation in demand
distributions. Our numerical results demonstrate that our method outperforms
rollout-based reinforcement learning, as well as several benchmarks based on
classical methods from the field of operations research.
- Abstract(参考訳): 都市地図上で確率的に現れる要求の処理を行う車両群に対して,ルーティング/ピックアップポリシを生成するための学習フレームワークを導出する。
私たちは政策に焦点を合わせ
1)車両間の連携を生じさせ、従量化の待ち時間を短縮する。
2)非明快で、未定の今後の要望を考慮し、
3) 基盤となる需要分布の変化に対応できる。
特に、オンピーク時間とオフピーク時間のような都市環境における実際の需要条件の変動に対応することに関心があります。
私たちはこれを組み合わせて達成し
(i)オンラインプレイ、近似ポリシー反復ステップによるロールアウト手法の性能を向上させるルックアヘッド最適化方法、及び
(ii)基盤となる需要モデルの変化に適応できるオフライン近似スキーム。
特に,wassersteinambiguity集合のq-valid半径を用いて妥当性の領域を定量化することにより,学習したポリシーを異なる需要分布に適応させることができる。
本研究では,現在の要求が元の有効領域外にある場合に,トレーニング済みのオフライン近似を切り替える機構を提案する。
この場合、wasserstein距離の観点で現在の需要に近い歴史的な需要モデルに基づいてトレーニングされたオフラインアーキテクチャを使うように提案する。
我々は、サンフランシスコのダウンタウンにおける実際の納税要求に対するルーティングとピックアップのポリシーを、オンピーク時間とオフピーク時間の間で高いばらつきで学習し、需要分布の実際の変動に対応する方法の能力を実証した。
その結果,本手法は,運用研究の古典的手法に基づくベンチマークと同様に,ロールアウトに基づく強化学習よりも優れることがわかった。
関連論文リスト
- Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Train Once, Get a Family: State-Adaptive Balances for Offline-to-Online
Reinforcement Learning [71.02384943570372]
Family Offline-to-Online RL (FamO2O) は、既存のアルゴリズムが状態適応型改善-制約バランスを決定するためのフレームワークである。
FamO2Oは、D4RLベンチマークで最先端のパフォーマンスを達成し、既存の様々な手法よりも統計的に顕著な改善を提供する。
論文 参考訳(メタデータ) (2023-10-27T08:30:54Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - An Online Approach to Solve the Dynamic Vehicle Routing Problem with
Stochastic Trip Requests for Paratransit Services [5.649212162857776]
動的車両ルーティング問題(DVRP)を解決するための完全オンライン手法を提案する。
時間的に疎いため、パラトランジットリクエストのバッチ化は困難である。
我々はモンテカルロ木探索を用いて任意の状態に対する行動を評価する。
論文 参考訳(メタデータ) (2022-03-28T22:15:52Z) - H-TD2: Hybrid Temporal Difference Learning for Adaptive Urban Taxi
Dispatch [9.35511513240868]
H-TD2はモデルフリーで適応的な意思決定アルゴリズムであり、動的な都市環境下で多数の自動タクシーを協調する。
計算複雑性と個別のタクシー政策の限定された部分最適化とのトレードオフを明示的に制御するために、2つの行動の間のトリガ条件を記述・規定する。
最近の強化学習ディスパッチ法とは異なり、このポリシ推定はトレーニング外ドメインイベントに適応し、堅牢である。
論文 参考訳(メタデータ) (2021-05-05T15:42:31Z) - AdaPool: A Diurnal-Adaptive Fleet Management Framework using Model-Free
Deep Reinforcement Learning and Change Point Detection [34.77250498401055]
本稿では,車いすによる乗り合い環境における日中パターンを認識・適応できる適応型モデルフリー深部強化手法を提案する。
本論文では, 配車における適応論理に加えて, 動的かつ需要に応じた車両通行者マッチングと経路計画の枠組みを提案する。
論文 参考訳(メタデータ) (2021-04-01T02:14:01Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z) - Equilibrium Inverse Reinforcement Learning for Ride-hailing Vehicle
Network [1.599072005190786]
疎結合グラフにおける客車マッチングの問題を定式化する。
マルチエージェント環境における平衡ポリシを導出するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-13T03:18:44Z) - Non-Stationary Off-Policy Optimization [50.41335279896062]
本研究では,時間的空間的帯域幅の非政治最適化の新たな課題について検討する。
オフライン学習フェーズでは、ログ化されたデータをカテゴリの潜在状態に分割し、各状態に対してほぼ最適のサブポリシーを学ぶ。
オンラインデプロイメントの段階では、学習したサブ政治をそのパフォーマンスに基づいて順応的に切り替える。
論文 参考訳(メタデータ) (2020-06-15T09:16:09Z) - AI-based Resource Allocation: Reinforcement Learning for Adaptive
Auto-scaling in Serverless Environments [0.0]
近年、サーバーレスコンピューティングはクラウドコンピューティングモデルの魅力的な新しいパラダイムとして現れています。
商用およびオープンソースのサーバレスコンピューティングプラットフォームに共通するアプローチは、ワークロードベースの自動スケーリングである。
本稿では、サーバーレスフレームワークにおける要求ベース自動スケーリングに対する強化学習アプローチの適用性について検討する。
論文 参考訳(メタデータ) (2020-05-29T06:18:39Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。