論文の概要: Spatio-temporal Incentives Optimization for Ride-hailing Services with
Offline Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2211.03240v1
- Date: Sun, 6 Nov 2022 23:54:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 19:26:20.110694
- Title: Spatio-temporal Incentives Optimization for Ride-hailing Services with
Offline Deep Reinforcement Learning
- Title(参考訳): オフライン深層強化学習による配車サービスのための時空間インセンティブ最適化
- Authors: Yanqiu Wu, Qingyang Li, Zhiwei Qin
- Abstract要約: 本稿では,輸送資源の利用と顧客満足度を向上させるため,需要側のオフライン強化学習手法を提案する。
我々は、時間と場所の異なる価値を学習するための深層時間学習法を採用し、その上で、乗客が需要分布を調整し、システムの供給と需要のバランスをとるように、乗車要求をインセンティブ化する。
- 参考スコア(独自算出の注目度): 7.668735431419396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A fundamental question in any peer-to-peer ride-sharing system is how to,
both effectively and efficiently, meet the request of passengers to balance the
supply and demand in real time. On the passenger side, traditional approaches
focus on pricing strategies by increasing the probability of users' call to
adjust the distribution of demand. However, previous methods do not take into
account the impact of changes in strategy on future supply and demand changes,
which means drivers are repositioned to different destinations due to
passengers' calls, which will affect the driver's income for a period of time
in the future. Motivated by this observation, we make an attempt to optimize
the distribution of demand to handle this problem by learning the long-term
spatio-temporal values as a guideline for pricing strategy. In this study, we
propose an offline deep reinforcement learning based method focusing on the
demand side to improve the utilization of transportation resources and customer
satisfaction. We adopt a spatio-temporal learning method to learn the value of
different time and location, then incentivize the ride requests of passengers
to adjust the distribution of demand to balance the supply and demand in the
system. In particular, we model the problem as a Markov Decision Process (MDP).
- Abstract(参考訳): ピアツーピアのライドシェアリングシステムにおける基本的な問題は、乗客の要求を効果的かつ効率的に満たし、リアルタイムで需要と需要のバランスをとる方法である。
利用者側では、従来のアプローチは需要分布を調整するための利用者の呼びかけの確率を高めることによって価格戦略に重点を置いている。
しかし、これまでの方法では、将来の需要と需要の変化に対する戦略の変更の影響を考慮せず、つまり、ドライバーは乗客の呼び出しによって異なる目的地に移動され、将来的にはドライバーの収入に影響を及ぼすことになる。
本研究の目的は,価格戦略の指針として長期時空間値を学習することで,需要分布を最適化してこの問題に対処することである。
本研究では,輸送資源の利用と顧客満足度を改善するために,需要側に着目したオフライン深層強化学習手法を提案する。
時間と位置の異なる値を学習する時空間学習手法を採用し,利用者の乗車要求にインセンティブを与え,需要分布を調整し,システムにおける需要と需要のバランスをとる。
特に,この問題をマルコフ決定過程(MDP)としてモデル化する。
関連論文リスト
- Fair collaborative vehicle routing: A deep multi-agent reinforcement
learning approach [49.00137468773683]
協力的な車両ルーティングは、キャリアがそれぞれの輸送要求を共有し、互いに代表して輸送要求を実行することで協力するときに発生する。
従来のゲーム理論解の概念は、特性関数がエージェントの数とともに指数関数的にスケールするので、計算に費用がかかる。
我々は,この問題を,深層マルチエージェント強化学習を用いて解決した連立交渉ゲームとしてモデル化することを提案する。
論文 参考訳(メタデータ) (2023-10-26T15:42:29Z) - Coalitional Bargaining via Reinforcement Learning: An Application to
Collaborative Vehicle Routing [49.00137468773683]
コラボレーティブ・ビークル・ルーティング(Collaborative Vehicle Routing)とは、デリバリ情報を共有し、互いに代理してデリバリ要求を実行することで、デリバリ企業が協力する場所である。
これによりスケールの経済が達成され、コスト、温室効果ガスの排出、道路渋滞が減少する。
しかし、どの会社が誰とパートナーし、それぞれの会社がどれだけの報酬を支払うべきか?
シャプリー値(英語版)やヌクレオルス(英語版)のような伝統的なゲーム理論解の概念は、協調車両ルーティング(英語版)の現実問題に対して計算することが困難である。
論文 参考訳(メタデータ) (2023-10-26T15:04:23Z) - Optimizing Credit Limit Adjustments Under Adversarial Goals Using
Reinforcement Learning [42.303733194571905]
我々は、強化学習技術を用いて最適なクレジットカード制限調整ポリシーを発見し、自動化することを模索する。
本研究は、信用限度調整に強化学習フレームワークを適用するための概念構造を確立する。
論文 参考訳(メタデータ) (2023-06-27T16:10:36Z) - STEF-DHNet: Spatiotemporal External Factors Based Deep Hybrid Network
for Enhanced Long-Term Taxi Demand Prediction [16.07685260834701]
本稿では,外部特徴を時間情報として統合した需要予測モデルSTEF-DHNetを提案する。
転がり誤差と呼ばれる長期的性能測定値を用いて評価し、再トレーニングをせずに長期間にわたって高い精度を維持する能力を評価する。
その結果,STEF-DHNetは3つの多様なデータセット上で既存の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2023-06-26T07:37:50Z) - Structured Dynamic Pricing: Optimal Regret in a Global Shrinkage Model [50.06663781566795]
消費者の嗜好と価格感が時間とともに変化する動的モデルを考える。
我々は,モデルパラメータの順序を事前に把握している透視者と比較して,収益損失が予想される,後悔による動的価格政策の性能を計測する。
提案した政策の最適性を示すだけでなく,政策立案のためには,利用可能な構造情報を組み込むことが不可欠であることを示す。
論文 参考訳(メタデータ) (2023-03-28T00:23:23Z) - Multiagent Reinforcement Learning for Autonomous Routing and Pickup
Problem with Adaptation to Variable Demand [1.8505047763172104]
都市の地図に現れる要求に対処する自律走行車両群に対して、ルーティング/ピックポリシーを生成するための学習枠組みを導出する。
当社は、車両間の協調を促す政策に焦点を合わせ、要求の待ち時間を短縮する。
本稿では、現在の需要が元の妥当性領域外にある場合に、トレーニング済みのオフライン近似を切り替えるメカニズムを提案する。
論文 参考訳(メタデータ) (2022-11-28T01:11:11Z) - Lifelong Hyper-Policy Optimization with Multiple Importance Sampling
Regularization [40.17392342387002]
本稿では,その時にクエリされるポリシーのパラメータを出力する,入力が時間である超政治を学習する手法を提案する。
この超政治は、推定される将来のパフォーマンスを最大化し、重要サンプリングによって過去のデータを効率的に再利用するように訓練されている。
実環境において、最先端のアルゴリズムと比較して、我々のアプローチを実証的に検証する。
論文 参考訳(メタデータ) (2021-12-13T13:09:49Z) - A Deep-Learning Based Optimization Approach to Address Stop-Skipping
Strategy in Urban Rail Transit Lines [0.0]
都市鉄道路線における最適なストップスキップパターンを決定するための高度なデータ駆動最適化手法を提案する。
我々は、ピーク時のステーションレベルの需要率を予測するために、LSTM(Long Short-Term Memory)ディープラーニングモデルを用いている。
この問題の指数関数的性質を考慮し,適切な時間で解決するAnt Colony Optimization手法を提案する。
論文 参考訳(メタデータ) (2021-09-17T23:52:19Z) - AdaPool: A Diurnal-Adaptive Fleet Management Framework using Model-Free
Deep Reinforcement Learning and Change Point Detection [34.77250498401055]
本稿では,車いすによる乗り合い環境における日中パターンを認識・適応できる適応型モデルフリー深部強化手法を提案する。
本論文では, 配車における適応論理に加えて, 動的かつ需要に応じた車両通行者マッチングと経路計画の枠組みを提案する。
論文 参考訳(メタデータ) (2021-04-01T02:14:01Z) - A Distributed Model-Free Ride-Sharing Approach for Joint Matching,
Pricing, and Dispatching using Deep Reinforcement Learning [32.0512015286512]
我々は、動的で需要に敏感で、価格に基づく車両通行者マッチングとルート計画フレームワークを提案する。
我々の枠組みはニューヨーク市税のデータセットを用いて検証されている。
実験の結果,実時間および大規模設定におけるアプローチの有効性が示された。
論文 参考訳(メタデータ) (2020-10-05T03:13:47Z) - Learn to Earn: Enabling Coordination within a Ride Hailing Fleet [5.016829322655594]
UberやLyftといった多面的な配車プラットフォーム上での社会福祉目標の最適化の問題について検討する。
都市全体の需要満足度と供給利用率を同時に維持しつつ、各超ローカル乗車要求に対する応答時間を最小化することを目的としている。
論文 参考訳(メタデータ) (2020-06-19T00:20:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。