論文の概要: Conditional Expectation based Value Decomposition for Scalable On-Demand
Ride Pooling
- arxiv url: http://arxiv.org/abs/2112.00579v1
- Date: Wed, 1 Dec 2021 15:53:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 17:03:33.459799
- Title: Conditional Expectation based Value Decomposition for Scalable On-Demand
Ride Pooling
- Title(参考訳): スケーラブルなオンデマンドライドプールのための条件付き期待値分解
- Authors: Avinandan Bose, Pradeep Varakantham
- Abstract要約: 従来のライドプーリングアプローチは、現在のマッチが車/ドライバーの将来的な価値に与える影響を考慮していない。
我々は,新たなアプローチである条件付き期待値分解(CEVD)がNeurADPを最大9.76%上回っていることを示す。
- 参考スコア(独自算出の注目度): 11.988825533369683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Owing to the benefits for customers (lower prices), drivers (higher
revenues), aggregation companies (higher revenues) and the environment (fewer
vehicles), on-demand ride pooling (e.g., Uber pool, Grab Share) has become
quite popular. The significant computational complexity of matching vehicles to
combinations of requests has meant that traditional ride pooling approaches are
myopic in that they do not consider the impact of current matches on future
value for vehicles/drivers. Recently, Neural Approximate Dynamic Programming
(NeurADP) has employed value decomposition with Approximate Dynamic Programming
(ADP) to outperform leading approaches by considering the impact of an
individual agent's (vehicle) chosen actions on the future value of that agent.
However, in order to ensure scalability and facilitate city-scale ride pooling,
NeurADP completely ignores the impact of other agents actions on individual
agent/vehicle value. As demonstrated in our experimental results, ignoring the
impact of other agents actions on individual value can have a significant
impact on the overall performance when there is increased competition among
vehicles for demand. Our key contribution is a novel mechanism based on
computing conditional expectations through joint conditional probabilities for
capturing dependencies on other agents actions without increasing the
complexity of training or decision making. We show that our new approach,
Conditional Expectation based Value Decomposition (CEVD) outperforms NeurADP by
up to 9.76% in terms of overall requests served, which is a significant
improvement on a city wide benchmark taxi dataset.
- Abstract(参考訳): 顧客(低価格)、ドライバー(高収入)、アグリゲーション会社(高収益)、環境(低収益)、オンデマンド配車(Uberプール、Grab Shareなど)の利点は、非常に人気がある。
車両と要求の組み合わせとをマッチングする計算の複雑さは、従来のライドプーリングアプローチが、現在のマッチングが車両/ドライバーの将来価値に与える影響を考慮しないという点において、妙に顕著であることを意味する。
近年、NeurADP(Neural Approximate Dynamic Programming)は、個々のエージェントの選択したアクションがエージェントの将来的な価値に与える影響を考慮し、ADP(Approximate Dynamic Programming)による価値分解を用いて、主要なアプローチを上回りつつある。
しかし、スケーラビリティを確保し、都市規模の配車を容易にするため、NeurADPは個々のエージェント/車両価値に対する他のエージェントアクションの影響を完全に無視する。
実験結果が示すように,車種間の競争が増加すると,他のエージェントの行動が個人価値に与える影響を無視することは,全体のパフォーマンスに大きな影響を与える可能性がある。
我々の重要な貢献は、トレーニングや意思決定の複雑さを増大させることなく、他のエージェントアクションへの依存性をキャプチャするジョイント条件付き確率による、計算条件期待に基づく新しいメカニズムである。
我々は,新たなアプローチである条件付き期待値分解(CEVD)がNeurADPを最大9.76%上回っていることを示す。
関連論文リスト
- Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Forecasting Auxiliary Energy Consumption for Electric Heavy-Duty
Vehicles [6.375656754994484]
電気自動車の運転を最適化するためには、エネルギー消費予測が不可欠である。
本稿では、データのサブセット上で複数の回帰モデルをトレーニングすることで、潜在的な解決策を実証する。
合成データセットと実世界のデータセットの両方の実験では、複雑な問題をより単純なデータセットに分割することで、より良い回帰性能と解釈可能性が得られることが示されている。
論文 参考訳(メタデータ) (2023-11-27T16:52:25Z) - Coalitional Bargaining via Reinforcement Learning: An Application to
Collaborative Vehicle Routing [49.00137468773683]
コラボレーティブ・ビークル・ルーティング(Collaborative Vehicle Routing)とは、デリバリ情報を共有し、互いに代理してデリバリ要求を実行することで、デリバリ企業が協力する場所である。
これによりスケールの経済が達成され、コスト、温室効果ガスの排出、道路渋滞が減少する。
しかし、どの会社が誰とパートナーし、それぞれの会社がどれだけの報酬を支払うべきか?
シャプリー値(英語版)やヌクレオルス(英語版)のような伝統的なゲーム理論解の概念は、協調車両ルーティング(英語版)の現実問題に対して計算することが困難である。
論文 参考訳(メタデータ) (2023-10-26T15:04:23Z) - Safe Model-Based Multi-Agent Mean-Field Reinforcement Learning [48.667697255912614]
平均場強化学習は、同一エージェントの無限集団と相互作用する代表エージェントのポリシーに対処する。
モデルベースの平均場強化学習アルゴリズムであるSafe-M$3$-UCRLを提案する。
本アルゴリズムは,低需要領域におけるサービスアクセシビリティを確保しつつ,重要な領域における需要を効果的に満たす。
論文 参考訳(メタデータ) (2023-06-29T15:57:07Z) - Studying the Impact of Semi-Cooperative Drivers on Overall Highway Flow [76.38515853201116]
半協調行動は、人間ドライバーの本質的な性質であり、自律運転には考慮すべきである。
新たな自律型プランナーは、社会的に準拠した軌道を生成するために、人間のドライバーの社会的価値指向(SVO)を考慮することができる。
エージェントが反復的最適応答のゲーム理論バージョンをデプロイする暗黙的な半協調運転について検討する。
論文 参考訳(メタデータ) (2023-04-23T16:01:36Z) - Towards More Efficient Shared Autonomous Mobility: A Learning-Based
Fleet Repositioning Approach [0.0]
本稿では,SAMSフリートをマルコフ決定プロセスとして定式化し,ISR(Integrated System-Adnt Repositioning)と呼ばれる強化学習型再配置(RLR)アプローチを提案する。
ISRは、需要予測を明示せずに、需要パターンの進化に対応することを学び、最適化に基づく乗客と車両の割り当てに協力する。
その結果, RLR アプローチは JO アプローチと比較して, 乗客待ち時間を大幅に削減し, 50% 以上を達成できた。
論文 参考訳(メタデータ) (2022-10-16T23:30:46Z) - Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Equilibrium Inverse Reinforcement Learning for Ride-hailing Vehicle
Network [1.599072005190786]
疎結合グラフにおける客車マッチングの問題を定式化する。
マルチエージェント環境における平衡ポリシを導出するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-13T03:18:44Z) - Instance-Aware Predictive Navigation in Multi-Agent Environments [93.15055834395304]
エージェント間の相互作用と将来のシーン構造を予測するIPC(Instance-Aware Predictive Control)アプローチを提案する。
我々は,ego中心の視点でエージェント間のインタラクションを推定するために,新しいマルチインスタンスイベント予測モジュールを採用する。
シーンレベルとインスタンスレベルの両方の予測状態をより有効活用するために、一連のアクションサンプリング戦略を設計します。
論文 参考訳(メタデータ) (2021-01-14T22:21:25Z) - Prediction by Anticipation: An Action-Conditional Prediction Method
based on Interaction Learning [23.321627835039934]
潜在確率的生成過程の観点から相互作用を観察する予測による予測を提案する。
このビューでは、連続データフレームをアクション条件分布から順次サンプルに分解することができる。
提案する予測モデルである変分ベイズ型は,この条件分布のエビデンス下限 (elbo) を最大化するために訓練されている。
論文 参考訳(メタデータ) (2020-12-25T01:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。