論文の概要: Equilibrium Inverse Reinforcement Learning for Ride-hailing Vehicle
Network
- arxiv url: http://arxiv.org/abs/2102.06854v1
- Date: Sat, 13 Feb 2021 03:18:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 16:11:07.901714
- Title: Equilibrium Inverse Reinforcement Learning for Ride-hailing Vehicle
Network
- Title(参考訳): 配車網における平衡逆補強学習
- Authors: Takuma Oda
- Abstract要約: 疎結合グラフにおける客車マッチングの問題を定式化する。
マルチエージェント環境における平衡ポリシを導出するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 1.599072005190786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ubiquitous mobile computing have enabled ride-hailing services to collect
vast amounts of behavioral data of riders and drivers and optimize supply and
demand matching in real time. While these mobility service providers have some
degree of control over the market by assigning vehicles to requests, they need
to deal with the uncertainty arising from self-interested driver behavior since
workers are usually free to drive when they are not assigned tasks. In this
work, we formulate the problem of passenger-vehicle matching in a sparsely
connected graph and proposed an algorithm to derive an equilibrium policy in a
multi-agent environment. Our framework combines value iteration methods to
estimate the optimal policy given expected state visitation and policy
propagation to compute multi-agent state visitation frequencies. Furthermore,
we developed a method to learn the driver's reward function transferable to an
environment with significantly different dynamics from training data. We
evaluated the robustness to changes in spatio-temporal supply-demand
distributions and deterioration in data quality using a real-world taxi
trajectory dataset; our approach significantly outperforms several baselines in
terms of imitation accuracy. The computational time required to obtain an
equilibrium policy shared by all vehicles does not depend on the number of
agents, and even on the scale of real-world services, it takes only a few
seconds on a single CPU.
- Abstract(参考訳): ユビキタスモバイルコンピューティングにより、配車サービスはライダーとドライバーの膨大な行動データを収集し、リアルタイムで供給と需要のマッチングを最適化することができます。
これらのモビリティサービスプロバイダは、要求に車両を割り当てることで市場をある程度コントロールしているが、労働者は通常、割り当てられたタスクがない場合は自由に運転できるので、自己関心のあるドライバーの行動から生じる不確実性に対処する必要がある。
本研究では,疎結合グラフにおける乗用車マッチングの問題を定式化し,マルチエージェント環境における平衡政策を導出するアルゴリズムを提案する。
提案手法は,提案手法を組み合わせることで,期待状態訪問の最適ポリシーを推定し,マルチエージェント状態訪問頻度を計算する。
さらに、トレーニングデータとはかなり異なるダイナミクスを持つ環境に転送可能なドライバーの報酬関数を学ぶ方法を開発した。
実世界のタクシー軌道データを用いて,時空間の供給需要分布の変化とデータ品質の劣化に対するロバスト性を評価した。
すべての車両が共有する平衡ポリシーを得るのに必要な計算時間はエージェントの数に依存しません。現実世界のサービスの規模でさえ、単一のCPUでほんの数秒しかかかりません。
関連論文リスト
- Driver Profiling and Bayesian Workload Estimation Using Naturalistic
Peripheral Detection Study Data [60.65190279432162]
性能データを駆動する作業負荷推定の問題に対処する。
心的負荷を誘発する主要な環境要因をビデオ解析により同定する。
教師付き学習フレームワークは、彼らが経験した平均的なワークロードに基づいて、プロファイルドライバに導入される。
ベイズフィルタリング手法は、ドライバーの即時作業負荷である(ほぼ)リアルタイムに逐次推定するために提案される。
論文 参考訳(メタデータ) (2023-03-26T13:15:44Z) - Embedding Synthetic Off-Policy Experience for Autonomous Driving via
Zero-Shot Curricula [48.58973705935691]
我々は、データの10%サブセットのみを使用してトレーニングされたエージェントが、データセット全体に対してトレーニングされたエージェントと同様に動作することを示す。
次に、この難易度スコアをゼロショット転送に使用して、模倣学習に基づく計画エージェントのカリキュラムを生成することを実証する。
論文 参考訳(メタデータ) (2022-12-02T18:57:21Z) - Scalable Vehicle Re-Identification via Self-Supervision [66.2562538902156]
自動車再同定は、都市規模の車両分析システムにおいて重要な要素の1つである。
車両再設計のための最先端のソリューションの多くは、既存のre-idベンチマークの精度向上に重点を置いており、計算の複雑さを無視することが多い。
推論時間に1つのネットワークのみを使用する自己教師型学習によって、シンプルで効果的なハイブリッドソリューションを提案する。
論文 参考訳(メタデータ) (2022-05-16T12:14:42Z) - A Queueing-Theoretic Framework for Vehicle Dispatching in Dynamic
Car-Hailing [technical report] [36.31694973019143]
我々は、重要なダイナミックカー配車問題、すなわち、テクティット最大収益車派遣(MRVD)を考える。
既存の機械学習アルゴリズムを用いて、各リージョンの将来の車両需要を予測し、各リージョンの待ち行列モデルを用いてドライバーのアイドルタイムを推定する。
予測された車両要求情報とドライバーのアイドル時間の推定値から,2つのバッチベースの車両配車アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-19T07:51:31Z) - Value Function is All You Need: A Unified Learning Framework for Ride
Hailing Platforms [57.21078336887961]
DiDi、Uber、Lyftなどの大型配車プラットフォームは、都市内の数万台の車両を1日中数百万の乗車要求に接続している。
両課題に対処するための統合価値に基づく動的学習フレームワーク(V1D3)を提案する。
論文 参考訳(メタデータ) (2021-05-18T19:22:24Z) - H-TD2: Hybrid Temporal Difference Learning for Adaptive Urban Taxi
Dispatch [9.35511513240868]
H-TD2はモデルフリーで適応的な意思決定アルゴリズムであり、動的な都市環境下で多数の自動タクシーを協調する。
計算複雑性と個別のタクシー政策の限定された部分最適化とのトレードオフを明示的に制御するために、2つの行動の間のトリガ条件を記述・規定する。
最近の強化学習ディスパッチ法とは異なり、このポリシ推定はトレーニング外ドメインイベントに適応し、堅牢である。
論文 参考訳(メタデータ) (2021-05-05T15:42:31Z) - Calibration of Human Driving Behavior and Preference Using Naturalistic
Traffic Data [5.926030548326619]
自然トラフィックデータからドライバの好みを推定するためにモデルをどのように反転させることができるかを示す。
我々のアプローチの際立った利点は、計算負担を大幅に削減することである。
論文 参考訳(メタデータ) (2021-05-05T01:20:03Z) - Real-world Ride-hailing Vehicle Repositioning using Deep Reinforcement
Learning [52.2663102239029]
アイドルヘイリングプラットフォーム上での現実世界の車両の深層強化学習と意思決定時間計画に基づく新しい実用的枠組みを提示する。
本手法は,重み付きバッチ学習アルゴリズムを用いて乗車時の状態値関数を学習する。
配車シミュレーション環境におけるベースラインでアルゴリズムをベンチマークし、収益効率の向上における優位性を実証します。
論文 参考訳(メタデータ) (2021-03-08T05:34:05Z) - Fast Approximate Solutions using Reinforcement Learning for Dynamic
Capacitated Vehicle Routing with Time Windows [3.5232085374661284]
本稿では, CVRP-TWDR (Capacitated Vehicle Routing with Time Windows and Dynamic Routing) の一般クラスに対する, 本質的に並列化, 高速, 近似学習に基づくソリューションを開発する。
艦隊内の車両を分散エージェントとして考えると、強化学習(RL)ベースの適応は動的環境におけるリアルタイムルート形成の鍵となると仮定する。
論文 参考訳(メタデータ) (2021-02-24T06:30:16Z) - A Distributed Model-Free Ride-Sharing Approach for Joint Matching,
Pricing, and Dispatching using Deep Reinforcement Learning [32.0512015286512]
我々は、動的で需要に敏感で、価格に基づく車両通行者マッチングとルート計画フレームワークを提案する。
我々の枠組みはニューヨーク市税のデータセットを用いて検証されている。
実験の結果,実時間および大規模設定におけるアプローチの有効性が示された。
論文 参考訳(メタデータ) (2020-10-05T03:13:47Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。