論文の概要: Where to go: Agent Guidance with Deep Reinforcement Learning in A
City-Scale Online Ride-Hailing Service
- arxiv url: http://arxiv.org/abs/2212.05742v1
- Date: Mon, 12 Dec 2022 07:42:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 16:02:58.090777
- Title: Where to go: Agent Guidance with Deep Reinforcement Learning in A
City-Scale Online Ride-Hailing Service
- Title(参考訳): where to go: 都市規模のオンライン配車サービスにおける深層強化学習によるエージェントガイダンス
- Authors: Jiyao Li, Vicki H. Allan
- Abstract要約: オンライン配車サービスの複数のパフォーマンス指標を考慮した新たな報奨スキームを設計する。
また,Action Mask (AM-DQN) を用いたDeep-Q-Network という新しい深層強化学習手法を提案する。
実験の結果, AM-DQNは, 平均故障率, 顧客の平均待ち時間, 空きタクシーの平均アイドル検索時間に関して, 全手法で最高の性能を発揮することがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online ride-hailing services have become a prevalent transportation system
across the world. In this paper, we study a challenging problem of how to
direct vacant taxis around a city such that supplies and demands can be
balanced in online ride-hailing services. We design a new reward scheme that
considers multiple performance metrics of online ride-hailing services. We also
propose a novel deep reinforcement learning method named Deep-Q-Network with
Action Mask (AM-DQN) masking off unnecessary actions in various locations such
that agents can learn much faster and more efficiently. We conduct extensive
experiments using a city-scale dataset from Chicago. Several popular heuristic
and learning methods are also implemented as baselines for comparison. The
results of the experiments show that the AM-DQN attains the best performances
of all methods with respect to average failure rate, average waiting time for
customers, and average idle search time for vacant taxis.
- Abstract(参考訳): オンライン配車サービスは世界中で普及している交通システムとなっている。
本稿では,オンライン配車サービスにおいて,供給と需要のバランスがとれるように,都市周辺の空きタクシーをどのように誘導するかという課題について検討する。
我々は、オンライン配車サービスの複数のパフォーマンス指標を考慮した新しい報酬スキームをデザインする。
また,様々な場所で不要な動作をマスキングし,エージェントがより高速かつ効率的に学習できるように,deep-q-network with action mask (am-dqn) という新しい深層強化学習法を提案する。
シカゴの都市規模データセットを用いて大規模な実験を行った。
いくつかの一般的なヒューリスティックおよび学習法は、比較のベースラインとして実装されている。
実験の結果, AM-DQNは, 平均故障率, 顧客の平均待ち時間, 空きタクシーの平均アイドル検索時間に関して, 全手法で最高の性能を発揮することがわかった。
関連論文リスト
- Accelerating Exploration with Unlabeled Prior Data [66.43995032226466]
我々は,報酬ラベルのない先行データを用いて,新たなスパース報酬タスクを解くエージェントの探索を指導し,加速する方法について検討する。
我々は、オンライン体験から報酬モデルを学び、ラベルのない事前データを楽観的な報酬でラベル付けし、ダウンストリームポリシーと批判最適化のためにオンラインデータと並行して使用する簡単なアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-09T00:05:17Z) - Short Run Transit Route Planning Decision Support System Using a Deep
Learning-Based Weighted Graph [0.0]
本稿では,公共交通機関の計画立案者が短期間の経路改善を迅速に特定できるような,意思決定支援システムのための新しいディープラーニング手法を提案する。
本手法は,日中の2つの停留所間の経路をシームレスに調整することにより,時間を短縮し,PTサービスを増強する。
本研究では,道路セグメントの遅延値を予測するためのディープラーニングモデルを訓練し,これらの遅延値を輸送グラフのエッジ重みとして利用することにより,効率的な経路探索を実現する。
論文 参考訳(メタデータ) (2023-08-24T14:37:55Z) - Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。
複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T17:58:39Z) - End-to-End Urban Driving by Imitating a Reinforcement Learning Coach [148.2683592850329]
人間は良いドライバーだが、エンドツーエンドのアルゴリズムにとって良いコーチではない。
我々は、鳥の目視画像を連続的な低レベル行動にマッピングする強化学習専門家を訓練する。
我々の強化学習コーチによって監督され、単眼カメラ入力のベースラインエンドツーエンドエージェントは、専門家レベルのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-08-18T17:36:51Z) - dFDA-VeD: A Dynamic Future Demand Aware Vehicle Dispatching System [21.17974307683502]
本稿では,動的な将来需要対応型配車システムを提案する。
移動需要と交通条件の両方を考慮して、移転センターを探索することができる。
提案システムでは,サービス提供率を大幅に向上し,運用コストが極めて少ないことが実証された。
論文 参考訳(メタデータ) (2021-06-10T13:40:17Z) - A Deep Value-network Based Approach for Multi-Driver Order Dispatching [55.36656442934531]
そこで本研究では,注文発送のための深層強化学習に基づくソリューションを提案する。
DiDiの配車プラットフォーム上で大規模なオンラインA/Bテストを実施している。
その結果,CVNetは近年提案されているディスパッチ手法よりも一貫して優れていた。
論文 参考訳(メタデータ) (2021-06-08T16:27:04Z) - Value Function is All You Need: A Unified Learning Framework for Ride
Hailing Platforms [57.21078336887961]
DiDi、Uber、Lyftなどの大型配車プラットフォームは、都市内の数万台の車両を1日中数百万の乗車要求に接続している。
両課題に対処するための統合価値に基づく動的学習フレームワーク(V1D3)を提案する。
論文 参考訳(メタデータ) (2021-05-18T19:22:24Z) - Real-world Ride-hailing Vehicle Repositioning using Deep Reinforcement
Learning [52.2663102239029]
アイドルヘイリングプラットフォーム上での現実世界の車両の深層強化学習と意思決定時間計画に基づく新しい実用的枠組みを提示する。
本手法は,重み付きバッチ学習アルゴリズムを用いて乗車時の状態値関数を学習する。
配車シミュレーション環境におけるベースラインでアルゴリズムをベンチマークし、収益効率の向上における優位性を実証します。
論文 参考訳(メタデータ) (2021-03-08T05:34:05Z) - Deep Surrogate Q-Learning for Autonomous Driving [17.30342128504405]
本稿では,自律運転における車線変更行動学習のためのSurrogate Q-learningを提案する。
このアーキテクチャは、Scene-centric Experience Replayと呼ばれる新しいリプレイサンプリング技術に繋がることを示す。
また,本手法は実高Dデータセット上のポリシーを学習することで,実世界のRLシステムの適用性を向上させる。
論文 参考訳(メタデータ) (2020-10-21T19:49:06Z) - Balancing Taxi Distribution in A City-Scale Dynamic Ridesharing Service:
A Hybrid Solution Based on Demand Learning [0.0]
本研究では,動的なライドシェアリングサービスにおいて,都市間のタクシー配電のバランスをとる上での課題について検討する。
本稿では,Correlated Pooling が関連ライダーの要求を収集し,Adjacency Ride-Matching が要求学習に基づくタクシーをライダーに割り当て,Greedy Idle Movement が現在利用者が必要な地域への配車なしでタクシーを誘導することを目的としたハイブリッドソリューションを提案する。
論文 参考訳(メタデータ) (2020-07-27T07:08:02Z) - Efficient Ridesharing Dispatch Using Multi-Agent Reinforcement Learning [0.0]
UberやLyftのようなライドシェアリングサービスは、乗客が車を拾うように注文できるサービスを提供している。
ライドシェアリング問題を解決するための従来の強化学習(RL)に基づく手法は、タクシーが運用する複雑な環境を正確にモデル化することができない。
固定グリッドサイズでのIDQNベースラインよりも優れた性能を示し、より小さなグリッドサイズやより大きなグリッドサイズに最適化できることを示す。
当社のアルゴリズムは,各エピソードの乗客数や車両数が変動するシナリオにおいて,IDQNベースラインを上回っている。
論文 参考訳(メタデータ) (2020-06-18T23:37:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。