論文の概要: H-TD2: Hybrid Temporal Difference Learning for Adaptive Urban Taxi
Dispatch
- arxiv url: http://arxiv.org/abs/2105.02138v1
- Date: Wed, 5 May 2021 15:42:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-06 12:34:06.545722
- Title: H-TD2: Hybrid Temporal Difference Learning for Adaptive Urban Taxi
Dispatch
- Title(参考訳): H-TD2:適応型都市タクシーディスパッチのためのハイブリッド時間差学習
- Authors: Benjamin Rivi\`ere and Soon-Jo Chung
- Abstract要約: H-TD2はモデルフリーで適応的な意思決定アルゴリズムであり、動的な都市環境下で多数の自動タクシーを協調する。
計算複雑性と個別のタクシー政策の限定された部分最適化とのトレードオフを明示的に制御するために、2つの行動の間のトリガ条件を記述・規定する。
最近の強化学習ディスパッチ法とは異なり、このポリシ推定はトレーニング外ドメインイベントに適応し、堅牢である。
- 参考スコア(独自算出の注目度): 9.35511513240868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present H-TD2: Hybrid Temporal Difference Learning for Taxi Dispatch, a
model-free, adaptive decision-making algorithm to coordinate a large fleet of
automated taxis in a dynamic urban environment to minimize expected customer
waiting times. Our scalable algorithm exploits the natural transportation
network company topology by switching between two behaviors: distributed
temporal-difference learning computed locally at each taxi and infrequent
centralized Bellman updates computed at the dispatch center. We derive a regret
bound and design the trigger condition between the two behaviors to explicitly
control the trade-off between computational complexity and the individual taxi
policy's bounded sub-optimality; this advances the state of the art by enabling
distributed operation with bounded-suboptimality. Additionally, unlike recent
reinforcement learning dispatch methods, this policy estimation is adaptive and
robust to out-of-training domain events. This result is enabled by a two-step
modelling approach: the policy is learned on an agent-agnostic, cell-based
Markov Decision Process and individual taxis are coordinated using the learned
policy in a distributed game-theoretic task assignment. We validate our
algorithm against a receding horizon control baseline in a Gridworld
environment with a simulated customer dataset, where the proposed solution
decreases average customer waiting time by 50% over a wide range of parameters.
We also validate in a Chicago city environment with real customer requests from
the Chicago taxi public dataset where the proposed solution decreases average
customer waiting time by 26% over irregular customer distributions during a
2016 Major League Baseball World Series game.
- Abstract(参考訳): h-td2: hybrid temporal difference learning for taxi dispatch, a model-free, adaptive decision-making algorithm for a large fleet of automated taxis in an dynamic urban environment (h-td2: hybrid temporal difference learning for taxi dispatch)。
我々のスケーラブルなアルゴリズムは、各タクシーでローカルに計算された時間差分学習と、ディスパッチセンターで計算された頻度の低いベルマン更新の2つの挙動を切り替えることで、自然輸送ネットワーク企業のトポロジを利用する。
本研究では,計算複雑性と個別タクシー政策の有界準最適性との間のトレードオフを明示的に制御する2つの動作間のトリガ条件を導出し,その制御条件を設計する。
さらに、最近の強化学習ディスパッチ法とは異なり、このポリシー推定はトレーニング外ドメインイベントに適応し、堅牢である。
ポリシーはエージェントに依存しない細胞ベースのマルコフ決定プロセスで学習され、個々のタクシーは分散ゲーム理論タスク割り当てにおいて学習されたポリシーを使用して調整される。
シミュレーションされた顧客データセットを用いて,Gridworld環境における水平方向制御ベースラインの後退に対するアルゴリズムの有効性を検証し,提案手法により,幅広いパラメータに対して平均顧客待ち時間を50%削減する。
また,2016年のメジャーリーグ・ワールドシリーズにおける不規則な顧客分布に対して,提案手法が平均的な顧客待機時間を26%削減するシカゴ・タクシー・パブリック・データセットからの実際の顧客要求をシカゴ市環境で検証した。
関連論文リスト
- Approximate Multiagent Reinforcement Learning for On-Demand Urban
Mobility Problem on a Large Map (extended version) [9.32626005183482]
大規模都市環境における自律型マルチエージェントタクシー経路問題について検討する。
最近の理論では、安定なベースポリシーを持つロールアウトアルゴリズムは、ほぼ最適に近い安定ポリシーを生成することが示されている。
本稿では,計算コストを削減できる近似マルチエージェントロールアウト方式の2相アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-02T18:33:32Z) - Deep reinforcement learning for the dynamic vehicle dispatching problem:
An event-based approach [0.0]
この問題を半マルコフ決定プロセスとしてモデル化することで、時間を連続的に扱うことができます。
イベントベースのアプローチは決定空間の複雑さを大幅に減らし、離散時間モデルの他の制限を克服する、と我々は主張する。
その結果、我々の政策は平均待ち時間、キャンセル率、サービス全体の時間に優れており、他のテスト済みのポリシーと比較して最大50%の削減が期待できることがわかった。
論文 参考訳(メタデータ) (2023-07-13T16:29:25Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - Off-line approximate dynamic programming for the vehicle routing problem
with stochastic customers and demands via decentralized decision-making [0.0]
本稿では,顧客の位置と需要が不確実な車両経路問題(VRP)の変種について検討する。
目的は、車両の容量と時間制限を満たしながら、提供された要求を最大化することである。
本稿では,Replay MemoryやDouble Q Networkといった最先端のアクセラレーション技術を用いたQラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-09-21T14:28:09Z) - A Deep Value-network Based Approach for Multi-Driver Order Dispatching [55.36656442934531]
そこで本研究では,注文発送のための深層強化学習に基づくソリューションを提案する。
DiDiの配車プラットフォーム上で大規模なオンラインA/Bテストを実施している。
その結果,CVNetは近年提案されているディスパッチ手法よりも一貫して優れていた。
論文 参考訳(メタデータ) (2021-06-08T16:27:04Z) - AdaPool: A Diurnal-Adaptive Fleet Management Framework using Model-Free
Deep Reinforcement Learning and Change Point Detection [34.77250498401055]
本稿では,車いすによる乗り合い環境における日中パターンを認識・適応できる適応型モデルフリー深部強化手法を提案する。
本論文では, 配車における適応論理に加えて, 動的かつ需要に応じた車両通行者マッチングと経路計画の枠組みを提案する。
論文 参考訳(メタデータ) (2021-04-01T02:14:01Z) - Equilibrium Inverse Reinforcement Learning for Ride-hailing Vehicle
Network [1.599072005190786]
疎結合グラフにおける客車マッチングの問題を定式化する。
マルチエージェント環境における平衡ポリシを導出するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-13T03:18:44Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Multi-Armed Bandit Based Client Scheduling for Federated Learning [91.91224642616882]
統合学習(FL)は、通信オーバーヘッドの低減やデータのプライバシの保護など、ユビキタスな特性を特徴とする。
FLの各通信ラウンドでは、クライアントは自身のデータに基づいてローカルモデルを更新し、無線チャネル経由でローカル更新をアップロードする。
本研究は、無線チャネルの状態情報やクライアントの統計的特性を知ることなく、FLにおけるオンラインクライアントスケジューリング(CS)のためのマルチアームバンディットベースのフレームワークを提供する。
論文 参考訳(メタデータ) (2020-07-05T12:32:32Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z) - Reinforcement Learning Based Vehicle-cell Association Algorithm for
Highly Mobile Millimeter Wave Communication [53.47785498477648]
本稿では,ミリ波通信網における車とセルの関連性について検討する。
まず、ユーザ状態(VU)問題を離散的な非車両関連最適化問題として定式化する。
提案手法は,複数のベースライン設計と比較して,ユーザの複雑性とVUEの20%削減の合計で最大15%のゲインが得られる。
論文 参考訳(メタデータ) (2020-01-22T08:51:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。