論文の概要: Equilibrium Inverse Reinforcement Learning for Ride-hailing Vehicle
Network
- arxiv url: http://arxiv.org/abs/2102.06854v1
- Date: Sat, 13 Feb 2021 03:18:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 16:11:07.901714
- Title: Equilibrium Inverse Reinforcement Learning for Ride-hailing Vehicle
Network
- Title(参考訳): 配車網における平衡逆補強学習
- Authors: Takuma Oda
- Abstract要約: 疎結合グラフにおける客車マッチングの問題を定式化する。
マルチエージェント環境における平衡ポリシを導出するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 1.599072005190786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ubiquitous mobile computing have enabled ride-hailing services to collect
vast amounts of behavioral data of riders and drivers and optimize supply and
demand matching in real time. While these mobility service providers have some
degree of control over the market by assigning vehicles to requests, they need
to deal with the uncertainty arising from self-interested driver behavior since
workers are usually free to drive when they are not assigned tasks. In this
work, we formulate the problem of passenger-vehicle matching in a sparsely
connected graph and proposed an algorithm to derive an equilibrium policy in a
multi-agent environment. Our framework combines value iteration methods to
estimate the optimal policy given expected state visitation and policy
propagation to compute multi-agent state visitation frequencies. Furthermore,
we developed a method to learn the driver's reward function transferable to an
environment with significantly different dynamics from training data. We
evaluated the robustness to changes in spatio-temporal supply-demand
distributions and deterioration in data quality using a real-world taxi
trajectory dataset; our approach significantly outperforms several baselines in
terms of imitation accuracy. The computational time required to obtain an
equilibrium policy shared by all vehicles does not depend on the number of
agents, and even on the scale of real-world services, it takes only a few
seconds on a single CPU.
- Abstract(参考訳): ユビキタスモバイルコンピューティングにより、配車サービスはライダーとドライバーの膨大な行動データを収集し、リアルタイムで供給と需要のマッチングを最適化することができます。
これらのモビリティサービスプロバイダは、要求に車両を割り当てることで市場をある程度コントロールしているが、労働者は通常、割り当てられたタスクがない場合は自由に運転できるので、自己関心のあるドライバーの行動から生じる不確実性に対処する必要がある。
本研究では,疎結合グラフにおける乗用車マッチングの問題を定式化し,マルチエージェント環境における平衡政策を導出するアルゴリズムを提案する。
提案手法は,提案手法を組み合わせることで,期待状態訪問の最適ポリシーを推定し,マルチエージェント状態訪問頻度を計算する。
さらに、トレーニングデータとはかなり異なるダイナミクスを持つ環境に転送可能なドライバーの報酬関数を学ぶ方法を開発した。
実世界のタクシー軌道データを用いて,時空間の供給需要分布の変化とデータ品質の劣化に対するロバスト性を評価した。
すべての車両が共有する平衡ポリシーを得るのに必要な計算時間はエージェントの数に依存しません。現実世界のサービスの規模でさえ、単一のCPUでほんの数秒しかかかりません。
関連論文リスト
- A Reinforcement Learning Approach for Dynamic Rebalancing in
Bike-Sharing System [11.237099288412558]
自転車シェアリングシステムはエコフレンドリーな都市移動を提供し、交通渋滞と健康的な生活様式の緩和に貢献している。
駅間で自転車を再分配するための車両を用いた効果的な再バランス戦略の開発は、オペレーターにとって非常に重要である。
本稿では,複数の車両との動的再バランス問題に対する時間的強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-05T23:46:42Z) - Coalitional Bargaining via Reinforcement Learning: An Application to
Collaborative Vehicle Routing [49.00137468773683]
コラボレーティブ・ビークル・ルーティング(Collaborative Vehicle Routing)とは、デリバリ情報を共有し、互いに代理してデリバリ要求を実行することで、デリバリ企業が協力する場所である。
これによりスケールの経済が達成され、コスト、温室効果ガスの排出、道路渋滞が減少する。
しかし、どの会社が誰とパートナーし、それぞれの会社がどれだけの報酬を支払うべきか?
シャプリー値(英語版)やヌクレオルス(英語版)のような伝統的なゲーム理論解の概念は、協調車両ルーティング(英語版)の現実問題に対して計算することが困難である。
論文 参考訳(メタデータ) (2023-10-26T15:04:23Z) - Deep reinforcement learning for the dynamic vehicle dispatching problem:
An event-based approach [0.0]
この問題を半マルコフ決定プロセスとしてモデル化することで、時間を連続的に扱うことができます。
イベントベースのアプローチは決定空間の複雑さを大幅に減らし、離散時間モデルの他の制限を克服する、と我々は主張する。
その結果、我々の政策は平均待ち時間、キャンセル率、サービス全体の時間に優れており、他のテスト済みのポリシーと比較して最大50%の削減が期待できることがわかった。
論文 参考訳(メタデータ) (2023-07-13T16:29:25Z) - Safe Model-Based Multi-Agent Mean-Field Reinforcement Learning [48.667697255912614]
平均場強化学習は、同一エージェントの無限集団と相互作用する代表エージェントのポリシーに対処する。
モデルベースの平均場強化学習アルゴリズムであるSafe-M$3$-UCRLを提案する。
本アルゴリズムは,低需要領域におけるサービスアクセシビリティを確保しつつ,重要な領域における需要を効果的に満たす。
論文 参考訳(メタデータ) (2023-06-29T15:57:07Z) - Embedding Synthetic Off-Policy Experience for Autonomous Driving via
Zero-Shot Curricula [48.58973705935691]
我々は、データの10%サブセットのみを使用してトレーニングされたエージェントが、データセット全体に対してトレーニングされたエージェントと同様に動作することを示す。
次に、この難易度スコアをゼロショット転送に使用して、模倣学習に基づく計画エージェントのカリキュラムを生成することを実証する。
論文 参考訳(メタデータ) (2022-12-02T18:57:21Z) - Scalable Vehicle Re-Identification via Self-Supervision [66.2562538902156]
自動車再同定は、都市規模の車両分析システムにおいて重要な要素の1つである。
車両再設計のための最先端のソリューションの多くは、既存のre-idベンチマークの精度向上に重点を置いており、計算の複雑さを無視することが多い。
推論時間に1つのネットワークのみを使用する自己教師型学習によって、シンプルで効果的なハイブリッドソリューションを提案する。
論文 参考訳(メタデータ) (2022-05-16T12:14:42Z) - A Queueing-Theoretic Framework for Vehicle Dispatching in Dynamic
Car-Hailing [technical report] [36.31694973019143]
我々は、重要なダイナミックカー配車問題、すなわち、テクティット最大収益車派遣(MRVD)を考える。
既存の機械学習アルゴリズムを用いて、各リージョンの将来の車両需要を予測し、各リージョンの待ち行列モデルを用いてドライバーのアイドルタイムを推定する。
予測された車両要求情報とドライバーのアイドル時間の推定値から,2つのバッチベースの車両配車アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-19T07:51:31Z) - Value Function is All You Need: A Unified Learning Framework for Ride
Hailing Platforms [57.21078336887961]
DiDi、Uber、Lyftなどの大型配車プラットフォームは、都市内の数万台の車両を1日中数百万の乗車要求に接続している。
両課題に対処するための統合価値に基づく動的学習フレームワーク(V1D3)を提案する。
論文 参考訳(メタデータ) (2021-05-18T19:22:24Z) - H-TD2: Hybrid Temporal Difference Learning for Adaptive Urban Taxi
Dispatch [9.35511513240868]
H-TD2はモデルフリーで適応的な意思決定アルゴリズムであり、動的な都市環境下で多数の自動タクシーを協調する。
計算複雑性と個別のタクシー政策の限定された部分最適化とのトレードオフを明示的に制御するために、2つの行動の間のトリガ条件を記述・規定する。
最近の強化学習ディスパッチ法とは異なり、このポリシ推定はトレーニング外ドメインイベントに適応し、堅牢である。
論文 参考訳(メタデータ) (2021-05-05T15:42:31Z) - Calibration of Human Driving Behavior and Preference Using Naturalistic
Traffic Data [5.926030548326619]
自然トラフィックデータからドライバの好みを推定するためにモデルをどのように反転させることができるかを示す。
我々のアプローチの際立った利点は、計算負担を大幅に削減することである。
論文 参考訳(メタデータ) (2021-05-05T01:20:03Z) - Real-world Ride-hailing Vehicle Repositioning using Deep Reinforcement
Learning [52.2663102239029]
アイドルヘイリングプラットフォーム上での現実世界の車両の深層強化学習と意思決定時間計画に基づく新しい実用的枠組みを提示する。
本手法は,重み付きバッチ学習アルゴリズムを用いて乗車時の状態値関数を学習する。
配車シミュレーション環境におけるベースラインでアルゴリズムをベンチマークし、収益効率の向上における優位性を実証します。
論文 参考訳(メタデータ) (2021-03-08T05:34:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。