論文の概要: Reward Design for Driver Repositioning Using Multi-Agent Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2002.06723v3
- Date: Sun, 23 Aug 2020 16:48:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-31 12:27:15.786069
- Title: Reward Design for Driver Repositioning Using Multi-Agent Reinforcement
Learning
- Title(参考訳): マルチエージェント強化学習を用いたドライバ配置のリワード設計
- Authors: Zhenyu Shou, Xuan Di
- Abstract要約: 本稿では,MARL(平均フィールド型マルチエージェント強化学習)を用いたマルチドライバ再配置タスクをモデル化することを目的とする。
与えられた報酬機構の下でのマルチドライバシステムへのMARLの直接適用は、ドライバの利己性による最適以下の均衡をもたらす可能性が高いため、本研究では、報酬設計スキームを提案する。
両レベル最適化モデルを2つのケーススタディに適用する。すなわち、サービス料金下でのE配車ドライバー配置と、ニューヨーク市の混雑価格下でのマルチクラスタクシー運転手配置である。
- 参考スコア(独自算出の注目度): 3.3123634393237706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A large portion of passenger requests is reportedly unserviced, partially due
to vacant for-hire drivers' cruising behavior during the passenger seeking
process. This paper aims to model the multi-driver repositioning task through a
mean field multi-agent reinforcement learning (MARL) approach that captures
competition among multiple agents. Because the direct application of MARL to
the multi-driver system under a given reward mechanism will likely yield a
suboptimal equilibrium due to the selfishness of drivers, this study proposes a
reward design scheme with which a more desired equilibrium can be reached. To
effectively solve the bilevel optimization problem with upper level as the
reward design and the lower level as a multi-agent system, a Bayesian
optimization (BO) algorithm is adopted to speed up the learning process. We
then apply the bilevel optimization model to two case studies, namely,
e-hailing driver repositioning under service charge and multiclass taxi driver
repositioning under NYC congestion pricing. In the first case study, the model
is validated by the agreement between the derived optimal control from BO and
that from an analytical solution. With a simple piecewise linear service
charge, the objective of the e-hailing platform can be increased by 8.4%. In
the second case study, an optimal toll charge of $5.1 is solved using BO, which
improves the objective of city planners by 7.9%, compared to that without any
toll charge. Under this optimal toll charge, the number of taxis in the NYC
central business district is decreased, indicating a better traffic condition,
without substantially increasing the crowdedness of the subway system.
- Abstract(参考訳): 乗客の要求の多くは、一部は乗客の捜索中の空き運転者によるクルーズ行動のため、役に立たないと伝えられている。
本稿では,複数エージェント間の競合を捉えた平均場多エージェント強化学習(MARL)手法を用いて,マルチドライバ再配置タスクをモデル化することを目的とする。
与えられた報酬機構の下でのマルチドライバーシステムへのmarlの直接適用は、ドライバの利己性により、最適以下の均衡をもたらす可能性が高いため、より望ましい均衡に達することができる報酬設計スキームを提案する。
報酬設計として上位レベル、マルチエージェントシステムとして下位レベルの2レベル最適化問題を効果的に解くため、ベイズ最適化(BO)アルゴリズムを用いて学習プロセスを高速化する。
次に、二段階最適化モデルを2つのケーススタディに適用する。すなわち、サービス料金下でのe-hailingドライバ再配置と、NYCの混雑価格下でのマルチクラスタクシードライバ再配置である。
最初のケーススタディでは、BOから導出した最適制御と解析解からの最適制御との一致によってモデルが検証される。
単純な分割線形サービスチャージにより、e-hailingプラットフォームの目的を8.4%向上させることができる。
第2のケーススタディでは、料金のない料金に比べて都市計画者の目標を7.9%改善するBOを用いて、最適料金5.1ドルを解いた。
この最適料金の下では、地下鉄網の混雑を著しく増大させることなく、ニューヨーク市中心部の営業地区でのタクシーの数は減少し、交通条件が良くなった。
関連論文リスト
- Online Merging Optimizers for Boosting Rewards and Mitigating Tax in Alignment [47.682736928029996]
大規模言語モデル(LLM)は、事前訓練と監視ファインチューニング(SFT)によって得られる能力の劣化を防止しつつ、人間中心の値と整合するように設計されている。
本稿では、RLHFとSFTモデルパラメータを補間することにより、人間の好みと基本能力のトレードオフを調整し、アライメント税を低減できることを示す。
これはアライメント税を軽減しつつアライメント報酬を大幅に向上させ、14のベンチマークで全体のパフォーマンスを向上する。
論文 参考訳(メタデータ) (2024-05-28T07:53:40Z) - Global Rewards in Multi-Agent Deep Reinforcement Learning for Autonomous Mobility on Demand Systems [3.9271220134003206]
本研究では,自律移動システム(AMoD)における車両の配車について検討する。
近年のアプローチでは,マルチエージェント深部強化学習(MADRL)を用いて,スケーラブルで高性能なアルゴリズムを実現する。
AMoDシステムにおける車両配車のためのグローバルリワードに基づくMADRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-14T12:47:33Z) - Coalitional Bargaining via Reinforcement Learning: An Application to
Collaborative Vehicle Routing [49.00137468773683]
コラボレーティブ・ビークル・ルーティング(Collaborative Vehicle Routing)とは、デリバリ情報を共有し、互いに代理してデリバリ要求を実行することで、デリバリ企業が協力する場所である。
これによりスケールの経済が達成され、コスト、温室効果ガスの排出、道路渋滞が減少する。
しかし、どの会社が誰とパートナーし、それぞれの会社がどれだけの報酬を支払うべきか?
シャプリー値(英語版)やヌクレオルス(英語版)のような伝統的なゲーム理論解の概念は、協調車両ルーティング(英語版)の現実問題に対して計算することが困難である。
論文 参考訳(メタデータ) (2023-10-26T15:04:23Z) - iPLAN: Intent-Aware Planning in Heterogeneous Traffic via Distributed
Multi-Agent Reinforcement Learning [57.24340061741223]
本稿では,高密度および不均一な交通シナリオにおける軌跡や意図を予測できる分散マルチエージェント強化学習(MARL)アルゴリズムを提案する。
インテント対応プランニングのアプローチであるiPLANにより、エージェントは近くのドライバーの意図をローカルな観察からのみ推測できる。
論文 参考訳(メタデータ) (2023-06-09T20:12:02Z) - Inducing Equilibria via Incentives: Simultaneous Design-and-Play Finds
Global Optima [114.31577038081026]
本稿では,デザイナーとエージェントの問題を同時に1ループで解くための効率的な手法を提案する。
設計者は平衡問題を何度も解決しないが、エージェントに対するインセンティブの全体的な影響を予測できる。
このアルゴリズムは,幅広い種類のゲームに対して,サブ線形速度で大域的最適値に収束することを示す。
論文 参考訳(メタデータ) (2021-10-04T06:53:59Z) - Value Function is All You Need: A Unified Learning Framework for Ride
Hailing Platforms [57.21078336887961]
DiDi、Uber、Lyftなどの大型配車プラットフォームは、都市内の数万台の車両を1日中数百万の乗車要求に接続している。
両課題に対処するための統合価値に基づく動的学習フレームワーク(V1D3)を提案する。
論文 参考訳(メタデータ) (2021-05-18T19:22:24Z) - Incentivizing Efficient Equilibria in Traffic Networks with Mixed
Autonomy [17.513581783749707]
車両小隊化は、車両小隊化による道路容量の増加によって交通渋滞を減少させる可能性がある。
我々は、(i)最短経路を選択する人間ドライバーと(ii)相乗りサービスという2つの交通手段を持つ平行道路のネットワークについて検討する。
我々は、混合自律で車両の流れのモデルと、価格と遅延の異なるルート間で自律サービスユーザーがどのように選択するかのモデルを定式化する。
論文 参考訳(メタデータ) (2021-05-06T03:01:46Z) - Balancing Fairness and Efficiency in Traffic Routing via Interpolated
Traffic Assignment [29.556405472628402]
補間交通割当問題(英: Interpolated Traffic Assignment Problem, I-TAP)は、公平性促進と効率性向上のための交通割当を補間する凸プログラムである。
輸送ネットワークにおけるI-TAPと最先端アルゴリズムの数値比較について述べる。
論文 参考訳(メタデータ) (2021-03-31T20:32:52Z) - Optimizing Mixed Autonomy Traffic Flow With Decentralized Autonomous
Vehicles and Multi-Agent RL [63.52264764099532]
本研究では、完全分散制御方式を用いて、混合自律環境でのボトルネックのスループットを向上させる自動運転車の能力について検討する。
この問題にマルチエージェント強化アルゴリズムを適用し、5%の浸透速度で20%から40%の浸透速度で33%までのボトルネックスループットの大幅な改善が達成できることを実証した。
論文 参考訳(メタデータ) (2020-10-30T22:06:05Z) - A Distributed Model-Free Ride-Sharing Approach for Joint Matching,
Pricing, and Dispatching using Deep Reinforcement Learning [32.0512015286512]
我々は、動的で需要に敏感で、価格に基づく車両通行者マッチングとルート計画フレームワークを提案する。
我々の枠組みはニューヨーク市税のデータセットを用いて検証されている。
実験の結果,実時間および大規模設定におけるアプローチの有効性が示された。
論文 参考訳(メタデータ) (2020-10-05T03:13:47Z) - Real-time and Large-scale Fleet Allocation of Autonomous Taxis: A Case
Study in New York Manhattan Island [14.501650948647324]
従来のモデルは、供給(自動タクシー)と需要(トリップ)の不均衡に対処するために、利用可能な船隊を効率的に割り当てることに失敗した
艦隊配置決定をモデル化するために、制約付きマルチエージェントマルコフ決定プロセス(CMMDP)を用いる。
また、カラム生成アルゴリズムを利用して、大規模に効率性と最適性を保証する。
論文 参考訳(メタデータ) (2020-09-06T16:00:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。