論文の概要: Efficient Ridesharing Dispatch Using Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2006.10897v1
- Date: Thu, 18 Jun 2020 23:37:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 13:31:13.559855
- Title: Efficient Ridesharing Dispatch Using Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習を用いた効率的なライドシェアリングディスパッチ
- Authors: Oscar de Lima, Hansal Shah, Ting-Sheng Chu, Brian Fogelson
- Abstract要約: UberやLyftのようなライドシェアリングサービスは、乗客が車を拾うように注文できるサービスを提供している。
ライドシェアリング問題を解決するための従来の強化学習(RL)に基づく手法は、タクシーが運用する複雑な環境を正確にモデル化することができない。
固定グリッドサイズでのIDQNベースラインよりも優れた性能を示し、より小さなグリッドサイズやより大きなグリッドサイズに最適化できることを示す。
当社のアルゴリズムは,各エピソードの乗客数や車両数が変動するシナリオにおいて,IDQNベースラインを上回っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advent of ride-sharing services, there is a huge increase in the
number of people who rely on them for various needs. Most of the earlier
approaches tackling this issue required handcrafted functions for estimating
travel times and passenger waiting times. Traditional Reinforcement Learning
(RL) based methods attempting to solve the ridesharing problem are unable to
accurately model the complex environment in which taxis operate. Prior
Multi-Agent Deep RL based methods based on Independent DQN (IDQN) learn
decentralized value functions prone to instability due to the concurrent
learning and exploring of multiple agents. Our proposed method based on QMIX is
able to achieve centralized training with decentralized execution. We show that
our model performs better than the IDQN baseline on a fixed grid size and is
able to generalize well to smaller or larger grid sizes. Also, our algorithm is
able to outperform IDQN baseline in the scenario where we have a variable
number of passengers and cars in each episode. Code for our paper is publicly
available at: https://github.com/UMich-ML-Group/RL-Ridesharing.
- Abstract(参考訳): ライドシェアリングサービスの出現に伴い、さまざまなニーズに頼っている人々の数が大幅に増加した。
この問題に取り組む初期のアプローチのほとんどは、旅行時間と乗客の待ち時間を推定するための手作り機能を必要としていた。
ライドシェアリング問題を解決するための従来の強化学習(RL)に基づく手法は、タクシーが運用する複雑な環境を正確にモデル化することができない。
独立DQN(IDQN)に基づく事前マルチエージェントディープRL法は,複数エージェントの同時学習と探索により不安定な分散値関数を学習する。
提案手法は,分散実行による集中学習を実現することができる。
固定グリッドサイズでのIDQNベースラインよりも優れた性能を示し、より小さなグリッドサイズやより大きなグリッドサイズに最適化できることを示す。
また,本アルゴリズムは,各エピソードの乗客数や車数が異なるシナリオにおいて,IDQNベースラインを上回っている。
私たちの論文のコードは、https://github.com/UMich-ML-Group/RL-Ride Shareで公開されています。
関連論文リスト
- WHALES: A Multi-agent Scheduling Dataset for Enhanced Cooperation in Autonomous Driving [54.365702251769456]
我々は、駆動シーケンス当たり平均8.4エージェントのデータセットを提示する。
自律運転データセットの中で最大のエージェントと視点を提供するだけでなく、WHALESはエージェントの振る舞いを記録する。
エージェントスケジューリングタスクにおいて,エゴエージェントが複数の候補エージェントの1つを選択して協調する実験を行う。
論文 参考訳(メタデータ) (2024-11-20T14:12:34Z) - Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。
現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。
本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-07T21:36:52Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - Learning RL-Policies for Joint Beamforming Without Exploration: A Batch
Constrained Off-Policy Approach [1.0080317855851213]
本稿では,ネットワークにおけるパラメータキャンセル最適化の問題点について考察する。
探索と学習のために実世界でアルゴリズムをデプロイすることは、探索せずにデータによって達成できることを示す。
論文 参考訳(メタデータ) (2023-10-12T18:36:36Z) - Multi-Start Team Orienteering Problem for UAS Mission Re-Planning with
Data-Efficient Deep Reinforcement Learning [9.877261093287304]
我々は、当初車両が補給所から離れた場所にあり、燃料の量が異なるミッション再計画問題について検討する。
そこで我々は,各部分ツアーに対する自己注意と,部分ツアーと残りのノード間のエンコーダ・デコーダの注意を組み込んだポリシーネットワークを構築した。
本稿では,複数の非重複サンプルのロールアウトに基づく局所的なミニバッチベースラインに,グリーディロールアウトベースラインを置き換えたREINFORCEアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-02T15:15:56Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - DriverGym: Democratising Reinforcement Learning for Autonomous Driving [75.91049219123899]
本稿では,自律運転のための強化学習アルゴリズムを開発するオープンソース環境であるDeadGymを提案する。
DriverGymは1000時間以上の専門家ログデータへのアクセスを提供し、リアクティブおよびデータ駆動エージェントの動作をサポートする。
広範かつフレキシブルなクローズループ評価プロトコルを用いて,実世界のデータ上でRLポリシーの性能を容易に検証できる。
論文 参考訳(メタデータ) (2021-11-12T11:47:08Z) - Distributed Heuristic Multi-Agent Path Finding with Communication [7.854890646114447]
大規模ロボットシステムにはMAPF(Multi-Agent Path Finding)が不可欠である。
近年,部分観測可能な環境下での分散警察の学習に強化学習(RL)を適用している。
本稿では,深層学習とコミュニケーションを組み合わせることで,MAPFの新たな学習手法を提案する。
論文 参考訳(メタデータ) (2021-06-21T18:50:58Z) - Scalable Deep Reinforcement Learning for Ride-Hailing [0.0]
Didi Chuxing、Lyft、Uberといったライドシェアサービスでは、毎日数千台の車が乗車要求に応えている。
配車サービスシステムのマルコフ決定プロセス(MDP)モデルを強化学習(RL)問題とみなす。
本稿では,ドライバにタスクを逐次割り当てることにより,MDP動作の特殊分解を提案する。
論文 参考訳(メタデータ) (2020-09-27T20:07:12Z) - Deep Q-Network Based Multi-agent Reinforcement Learning with Binary
Action Agents [1.8782750537161614]
強化学習(RL)のためのディープQネットワーク(DQN)ベースのマルチエージェントシステム(MAS)は、エージェントが学習し通信しなければならない様々なスキームを使用する。
共有状態と報酬を用いたRLのための単純だが効率的なDQNベースのMASを提案する。
このアプローチの利点は、従来のDQNベースのアプローチと比較して、全体的な単純さ、より高速な収束、より良いパフォーマンスである。
論文 参考訳(メタデータ) (2020-08-06T15:16:05Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。