Fugu-MT 論文翻訳(概要): Efficient Ridesharing Dispatch Using Multi-Agent Reinforcement Learning

論文の概要: Efficient Ridesharing Dispatch Using Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2006.10897v1
Date: Thu, 18 Jun 2020 23:37:53 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-19 13:31:13.559855
Title: Efficient Ridesharing Dispatch Using Multi-Agent Reinforcement Learning
Title（参考訳）: マルチエージェント強化学習を用いた効率的なライドシェアリングディスパッチ
Authors: Oscar de Lima, Hansal Shah, Ting-Sheng Chu, Brian Fogelson
Abstract要約: UberやLyftのようなライドシェアリングサービスは、乗客が車を拾うように注文できるサービスを提供している。ライドシェアリング問題を解決するための従来の強化学習(RL)に基づく手法は、タクシーが運用する複雑な環境を正確にモデル化することができない。固定グリッドサイズでのIDQNベースラインよりも優れた性能を示し、より小さなグリッドサイズやより大きなグリッドサイズに最適化できることを示す。当社のアルゴリズムは,各エピソードの乗客数や車両数が変動するシナリオにおいて,IDQNベースラインを上回っている。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the advent of ride-sharing services, there is a huge increase in the number of people who rely on them for various needs. Most of the earlier approaches tackling this issue required handcrafted functions for estimating travel times and passenger waiting times. Traditional Reinforcement Learning (RL) based methods attempting to solve the ridesharing problem are unable to accurately model the complex environment in which taxis operate. Prior Multi-Agent Deep RL based methods based on Independent DQN (IDQN) learn decentralized value functions prone to instability due to the concurrent learning and exploring of multiple agents. Our proposed method based on QMIX is able to achieve centralized training with decentralized execution. We show that our model performs better than the IDQN baseline on a fixed grid size and is able to generalize well to smaller or larger grid sizes. Also, our algorithm is able to outperform IDQN baseline in the scenario where we have a variable number of passengers and cars in each episode. Code for our paper is publicly available at: https://github.com/UMich-ML-Group/RL-Ridesharing.
Abstract（参考訳）: ライドシェアリングサービスの出現に伴い、さまざまなニーズに頼っている人々の数が大幅に増加した。この問題に取り組む初期のアプローチのほとんどは、旅行時間と乗客の待ち時間を推定するための手作り機能を必要としていた。ライドシェアリング問題を解決するための従来の強化学習(RL)に基づく手法は、タクシーが運用する複雑な環境を正確にモデル化することができない。独立DQN(IDQN)に基づく事前マルチエージェントディープRL法は,複数エージェントの同時学習と探索により不安定な分散値関数を学習する。提案手法は,分散実行による集中学習を実現することができる。固定グリッドサイズでのIDQNベースラインよりも優れた性能を示し、より小さなグリッドサイズやより大きなグリッドサイズに最適化できることを示す。また,本アルゴリズムは,各エピソードの乗客数や車数が異なるシナリオにおいて,IDQNベースラインを上回っている。私たちの論文のコードは、https://github.com/UMich-ML-Group/RL-Ride Shareで公開されています。

関連論文リスト

Intention-Conditioned Flow Occupancy Models [69.79049994662591]
大規模な事前学習は、今日の機械学習研究のやり方を根本的に変えた。同じフレームワークを強化学習に適用することは、RLの中核的な課題に対処するための魅力的な方法を提供するので、魅力的です。生成AIの最近の進歩は、高度に複雑な分布をモデリングするための新しいツールを提供している。
論文参考訳（メタデータ） (2025-06-10T15:27:46Z)
Digi-Q: Learning Q-Value Functions for Training Device-Control Agents [73.60512136881279]
Digi-QはVLMベースのアクション値Q関数を訓練し、エージェントポリシーを抽出する。 Digi-Qは、Android-in-the-Wildのユーザスケールデバイス制御タスクにおいて、いくつかの従来手法より優れている。
論文参考訳（メタデータ） (2025-02-13T18:55:14Z)
WHALES: A Multi-agent Scheduling Dataset for Enhanced Cooperation in Autonomous Driving [54.365702251769456]
我々は、駆動シーケンス当たり平均8.4エージェントのデータセットを提示する。自律運転データセットの中で最大のエージェントと視点を提供するだけでなく、WHALESはエージェントの振る舞いを記録する。エージェントスケジューリングタスクにおいて,エゴエージェントが複数の候補エージェントの1つを選択して協調する実験を行う。
論文参考訳（メタデータ） (2024-11-20T14:12:34Z)
Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-11-07T21:36:52Z)
ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-02-29T18:45:56Z)
Learning RL-Policies for Joint Beamforming Without Exploration: A Batch Constrained Off-Policy Approach [1.0080317855851213]
本稿では,ネットワークにおけるパラメータキャンセル最適化の問題点について考察する。探索と学習のために実世界でアルゴリズムをデプロイすることは、探索せずにデータによって達成できることを示す。
論文参考訳（メタデータ） (2023-10-12T18:36:36Z)
Multi-Start Team Orienteering Problem for UAS Mission Re-Planning with Data-Efficient Deep Reinforcement Learning [9.877261093287304]
我々は、当初車両が補給所から離れた場所にあり、燃料の量が異なるミッション再計画問題について検討する。そこで我々は,各部分ツアーに対する自己注意と,部分ツアーと残りのノード間のエンコーダ・デコーダの注意を組み込んだポリシーネットワークを構築した。本稿では,複数の非重複サンプルのロールアウトに基づく局所的なミニバッチベースラインに,グリーディロールアウトベースラインを置き換えたREINFORCEアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-03-02T15:15:56Z)
Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文参考訳（メタデータ） (2022-02-17T02:44:05Z)
DriverGym: Democratising Reinforcement Learning for Autonomous Driving [75.91049219123899]
本稿では,自律運転のための強化学習アルゴリズムを開発するオープンソース環境であるDeadGymを提案する。 DriverGymは1000時間以上の専門家ログデータへのアクセスを提供し、リアクティブおよびデータ駆動エージェントの動作をサポートする。広範かつフレキシブルなクローズループ評価プロトコルを用いて,実世界のデータ上でRLポリシーの性能を容易に検証できる。
論文参考訳（メタデータ） (2021-11-12T11:47:08Z)
Distributed Heuristic Multi-Agent Path Finding with Communication [7.854890646114447]
大規模ロボットシステムにはMAPF(Multi-Agent Path Finding)が不可欠である。近年,部分観測可能な環境下での分散警察の学習に強化学習(RL)を適用している。本稿では,深層学習とコミュニケーションを組み合わせることで,MAPFの新たな学習手法を提案する。
論文参考訳（メタデータ） (2021-06-21T18:50:58Z)
Scalable Deep Reinforcement Learning for Ride-Hailing [0.0]
Didi Chuxing、Lyft、Uberといったライドシェアサービスでは、毎日数千台の車が乗車要求に応えている。配車サービスシステムのマルコフ決定プロセス(MDP)モデルを強化学習(RL)問題とみなす。本稿では,ドライバにタスクを逐次割り当てることにより,MDP動作の特殊分解を提案する。
論文参考訳（メタデータ） (2020-09-27T20:07:12Z)
Deep Q-Network Based Multi-agent Reinforcement Learning with Binary Action Agents [1.8782750537161614]
強化学習(RL)のためのディープQネットワーク(DQN)ベースのマルチエージェントシステム(MAS)は、エージェントが学習し通信しなければならない様々なスキームを使用する。共有状態と報酬を用いたRLのための単純だが効率的なDQNベースのMASを提案する。このアプローチの利点は、従来のDQNベースのアプローチと比較して、全体的な単純さ、より高速な収束、より良いパフォーマンスである。
論文参考訳（メタデータ） (2020-08-06T15:16:05Z)
SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。 SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文参考訳（メタデータ） (2020-07-09T17:08:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。