論文の概要: i-Rebalance: Personalized Vehicle Repositioning for Supply Demand Balance
- arxiv url: http://arxiv.org/abs/2401.04429v2
- Date: Tue, 2 Apr 2024 05:50:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 09:10:18.599269
- Title: i-Rebalance: Personalized Vehicle Repositioning for Supply Demand Balance
- Title(参考訳): i-リバランス:需給バランスのための個人化自動車再配置
- Authors: Haoyang Chen, Peiyan Sun, Qiyuan Song, Wanyuan Wang, Weiwei Wu, Wencan Zhang, Guanyu Gao, Yan Lyu,
- Abstract要約: 深部強化学習(DRL)を用いた個別車両再配置手法i-Rebalanceを提案する。
i-Re Balanceは、99人のリアルドライバーを含む実地ユーザスタディを通じて、リポジションレコメンデーションを受け入れる際のドライバーの判断を推定する。
実世界の軌道データの評価では、i-リバランスはドライバーの受け入れ率を38.07%、ドライバーの総収入を9.97%改善している。
- 参考スコア(独自算出の注目度): 11.720716530010323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ride-hailing platforms have been facing the challenge of balancing demand and supply. Existing vehicle reposition techniques often treat drivers as homogeneous agents and relocate them deterministically, assuming compliance with the reposition. In this paper, we consider a more realistic and driver-centric scenario where drivers have unique cruising preferences and can decide whether to take the recommendation or not on their own. We propose i-Rebalance, a personalized vehicle reposition technique with deep reinforcement learning (DRL). i-Rebalance estimates drivers' decisions on accepting reposition recommendations through an on-field user study involving 99 real drivers. To optimize supply-demand balance and enhance preference satisfaction simultaneously, i-Rebalance has a sequential reposition strategy with dual DRL agents: Grid Agent to determine the reposition order of idle vehicles, and Vehicle Agent to provide personalized recommendations to each vehicle in the pre-defined order. This sequential learning strategy facilitates more effective policy training within a smaller action space compared to traditional joint-action methods. Evaluation of real-world trajectory data shows that i-Rebalance improves driver acceptance rate by 38.07% and total driver income by 9.97%.
- Abstract(参考訳): ライドシェアリングプラットフォームは、需要と供給のバランスをとるという課題に直面している。
既存の車両再配置技術は、しばしばドライバーを均質なエージェントとして扱い、再配置の遵守を前提として決定的にそれらを移動させる。
本稿では,より現実的で運転者中心のシナリオとして,ドライバーが独自のクルーズの好みを持ち,自ら推奨するか否かを判断できるシナリオについて考察する。
深部強化学習(DRL)を用いた個別車両再配置技術であるi-Rebalanceを提案する。
i-Re Balanceは、99人のリアルドライバーを含む実地ユーザスタディを通じて、リポジションレコメンデーションを受け入れる際のドライバーの判断を推定する。
供給需要のバランスを最適化し、同時に嗜好満足度を高めるため、i-Re Balanceは2台のDRLエージェントで順次再配置戦略を持つ: アイドル車の再配置順序を決定するグリッドエージェントと、事前に定義された順序で各車両にパーソナライズされたレコメンデーションを提供する車両エージェントである。
このシーケンシャルな学習戦略は、従来の共同行動法と比較して、より小さな行動空間内でのより効果的な政策訓練を促進する。
実世界の軌道データの評価では、i-リバランスはドライバーの受け入れ率を38.07%、ドライバーの総収入を9.97%改善している。
関連論文リスト
- Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。
本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。
本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T11:47:56Z) - Train Once, Get a Family: State-Adaptive Balances for Offline-to-Online
Reinforcement Learning [71.02384943570372]
Family Offline-to-Online RL (FamO2O) は、既存のアルゴリズムが状態適応型改善-制約バランスを決定するためのフレームワークである。
FamO2Oは、D4RLベンチマークで最先端のパフォーマンスを達成し、既存の様々な手法よりも統計的に顕著な改善を提供する。
論文 参考訳(メタデータ) (2023-10-27T08:30:54Z) - Coalitional Bargaining via Reinforcement Learning: An Application to
Collaborative Vehicle Routing [49.00137468773683]
コラボレーティブ・ビークル・ルーティング(Collaborative Vehicle Routing)とは、デリバリ情報を共有し、互いに代理してデリバリ要求を実行することで、デリバリ企業が協力する場所である。
これによりスケールの経済が達成され、コスト、温室効果ガスの排出、道路渋滞が減少する。
しかし、どの会社が誰とパートナーし、それぞれの会社がどれだけの報酬を支払うべきか?
シャプリー値(英語版)やヌクレオルス(英語版)のような伝統的なゲーム理論解の概念は、協調車両ルーティング(英語版)の現実問題に対して計算することが困難である。
論文 参考訳(メタデータ) (2023-10-26T15:04:23Z) - Can Agents Run Relay Race with Strangers? Generalization of RL to
Out-of-Distribution Trajectories [88.08381083207449]
異種エージェントの制御可能な状態に対する一般化失敗の有病率を示す。
本稿では,学習中のQ関数に従って環境をエージェントの旧状態にリセットする,STA(Self-Trajectory Augmentation)という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-26T10:12:12Z) - Safe Reinforcement Learning for an Energy-Efficient Driver Assistance
System [1.8899300124593645]
強化学習(Reinforcement Learning, RL)に基づく運転支援システムは, 電力系統制御動作の継続的な改善を通じて, 燃費の向上を図る。
本稿では,RLに基づく運転支援システムによって提案される安全でない動作をフィルタするために,指数制御障壁関数(ECBF)を導出して利用する。
提案手法は, 走行中の衝突を効果的に回避できることを示すため, 車両内での安全RLスキームの訓練と評価を行う。
論文 参考訳(メタデータ) (2023-01-03T00:25:00Z) - Residual Policy Learning for Powertrain Control [2.064612766965483]
本稿では、リザーブポリシー学習(RPL)エージェントを使用して、デフォルトのパワートレインコントローラにリザーブアクションを提供するアクティブドライバ支援手法の概要を述べる。
各種の自動車追従シナリオにおける模擬商用車両の実装により,RPLエージェントは,ベースラインのソースポリシーと比較して急速に改善されたポリシーを学習することがわかった。
論文 参考訳(メタデータ) (2022-12-15T04:22:21Z) - Towards More Efficient Shared Autonomous Mobility: A Learning-Based
Fleet Repositioning Approach [0.0]
本稿では,SAMSフリートをマルコフ決定プロセスとして定式化し,ISR(Integrated System-Adnt Repositioning)と呼ばれる強化学習型再配置(RLR)アプローチを提案する。
ISRは、需要予測を明示せずに、需要パターンの進化に対応することを学び、最適化に基づく乗客と車両の割り当てに協力する。
その結果, RLR アプローチは JO アプローチと比較して, 乗客待ち時間を大幅に削減し, 50% 以上を達成できた。
論文 参考訳(メタデータ) (2022-10-16T23:30:46Z) - Deep Reinforcement Learning Aided Platoon Control Relying on V2X
Information [78.18186960475974]
車両間通信(V2X)が小隊制御性能に及ぼす影響について検討した。
我々の目的は、最も適切な状態空間を構築するために、車両間で共有されるべき特定の情報の集合を見つけることである。
状態空間に含めると、より高い状態次元を持つ負の効果を相殺する確率が高いため、より有益な情報が伝達においてより高い優先度で与えられる。
論文 参考訳(メタデータ) (2022-03-28T02:11:54Z) - Equilibrium Inverse Reinforcement Learning for Ride-hailing Vehicle
Network [1.599072005190786]
疎結合グラフにおける客車マッチングの問題を定式化する。
マルチエージェント環境における平衡ポリシを導出するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-13T03:18:44Z) - Vehicular Cooperative Perception Through Action Branching and Federated
Reinforcement Learning [101.64598586454571]
強化学習に基づく車両関連、リソースブロック(RB)割り当て、協調認識メッセージ(CPM)のコンテンツ選択を可能にする新しいフレームワークが提案されている。
車両全体のトレーニングプロセスをスピードアップするために、フェデレーションRLアプローチが導入されます。
その結果、フェデレーションRLはトレーニングプロセスを改善し、非フェデレーションアプローチと同じ時間内により良いポリシーを達成できることが示された。
論文 参考訳(メタデータ) (2020-12-07T02:09:15Z) - A Distributed Model-Free Ride-Sharing Approach for Joint Matching,
Pricing, and Dispatching using Deep Reinforcement Learning [32.0512015286512]
我々は、動的で需要に敏感で、価格に基づく車両通行者マッチングとルート計画フレームワークを提案する。
我々の枠組みはニューヨーク市税のデータセットを用いて検証されている。
実験の結果,実時間および大規模設定におけるアプローチの有効性が示された。
論文 参考訳(メタデータ) (2020-10-05T03:13:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。