論文の概要: Cooperative Path Planning with Asynchronous Multiagent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2409.00754v1
- Date: Sun, 1 Sep 2024 15:48:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 09:11:31.835950
- Title: Cooperative Path Planning with Asynchronous Multiagent Reinforcement Learning
- Title(参考訳): 非同期マルチエージェント強化学習を用いた協調経路計画
- Authors: Jiaming Yin, Weixiong Rao, Yu Xiao, Keshuang Tang,
- Abstract要約: 複数のソース-決定ペア(MSD)を持つ最短経路問題(SPP)
本稿では,最短経路問題(SPP)について,複数の経路対,すなわちMSD-SPPを用いて検討し,最短経路の平均走行時間を最小化する。
- 参考スコア(独自算出の注目度): 4.640948267127441
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the shortest path problem (SPP) with multiple source-destination pairs (MSD), namely MSD-SPP, to minimize average travel time of all shortest paths. The inherent traffic capacity limits within a road network contributes to the competition among vehicles. Multi-agent reinforcement learning (MARL) model cannot offer effective and efficient path planning cooperation due to the asynchronous decision making setting in MSD-SPP, where vehicles (a.k.a agents) cannot simultaneously complete routing actions in the previous time step. To tackle the efficiency issue, we propose to divide an entire road network into multiple sub-graphs and subsequently execute a two-stage process of inter-region and intra-region route planning. To address the asynchronous issue, in the proposed asyn-MARL framework, we first design a global state, which exploits a low-dimensional vector to implicitly represent the joint observations and actions of multi-agents. Then we develop a novel trajectory collection mechanism to decrease the redundancy in training trajectories. Additionally, we design a novel actor network to facilitate the cooperation among vehicles towards the same or close destinations and a reachability graph aimed at preventing infinite loops in routing paths. On both synthetic and real road networks, our evaluation result demonstrates that our approach outperforms state-of-the-art planning approaches.
- Abstract(参考訳): 本稿では,最短経路問題(SPP)について,複数の経路対,すなわちMSD-SPPを用いて検討し,最短経路の平均走行時間を最小化する。
道路網内の交通容量制限は、車両間の競争に寄与する。
マルチエージェント強化学習(MARL)モデルは、MSD-SPPにおける非同期決定設定により、車両(エージェント)が前回のステップで同時にルーティングアクションを完了できないため、効果的で効率的な経路計画協調を提供することができない。
効率性の問題に対処するため,道路網全体を複数のサブグラフに分割し,地域間および地域内経路計画の2段階プロセスを実行することを提案する。
非同期問題に対処するため,提案したasyn-MARLフレームワークでは,まず,低次元ベクトルを利用してマルチエージェントの協調観測と動作を暗黙的に表現するグローバルステートを設計する。
そこで我々は,訓練軌跡の冗長性を減少させる新しい軌道収集機構を開発した。
さらに,同一あるいは近接目的地への車両の協調を容易にする新しいアクターネットワークと,経路の無限ループを防止することを目的とした到達可能性グラフを設計する。
提案手法は, 合成道路ネットワークと実道路ネットワークの両方において, 提案手法が最先端の計画手法より優れていることを示す。
関連論文リスト
- Deep Reinforcement Learning for Traveling Purchaser Problems [63.37136587778153]
旅行購入問題(TPP)は幅広いアプリケーションにおいて重要な最適化問題である。
本稿では,ルート構築と購入計画を個別に扱う,深層強化学習(DRL)に基づく新しいアプローチを提案する。
メタラーニング戦略を導入することで、大規模なTPPインスタンス上で安定してポリシーネットワークをトレーニングすることができる。
論文 参考訳(メタデータ) (2024-04-03T05:32:10Z) - Multi-Agent Deep Reinforcement Learning for Distributed Satellite
Routing [7.793857269225969]
本稿では、低軌道衛星コンステレーション(LSatC)におけるルーティングのためのマルチエージェント深部強化学習(MA-DRL)手法を提案する。
その結果,MA-DRLはオフラインで最適な経路を効率よく学習し,効率の良い分散ルーティングのためにロードすることがわかった。
論文 参考訳(メタデータ) (2024-02-27T16:36:53Z) - Multi-agent Path Finding for Cooperative Autonomous Driving [8.8305853192334]
我々は,既存のアルゴリズムを著しく上回る最適かつ完全なアルゴリズムであるオーダーベース検索をKinematics Arrival Time Scheduling (OBS-KATS) により考案した。
当社の作業は、同じようなスケールのトラフィックや、有向車線を備えたマルチロボットシナリオに直接適用可能です。
論文 参考訳(メタデータ) (2024-02-01T04:39:15Z) - Real-Time Network-Level Traffic Signal Control: An Explicit Multiagent
Coordination Method [9.761657423863706]
交通信号の効率的な制御 (TSC) は, 都市交通渋滞の低減に最も有用な方法の1つである。
強化学習(RL)手法を適用した最近の取り組みは、トラフィック状態を信号決定にリアルタイムでマッピングすることでポリシーをクエリすることができる。
本稿では,適応的,リアルタイム,ネットワークレベルのTSCを満足する,EMCに基づくオンライン計画手法を提案する。
論文 参考訳(メタデータ) (2023-06-15T04:08:09Z) - Traj-MAE: Masked Autoencoders for Trajectory Prediction [69.7885837428344]
軌道予測は、危険を予測して信頼性の高い自動運転システムを構築する上で重要な課題である。
本稿では,運転環境におけるエージェントの複雑な動作をよりよく表現する,軌道予測のための効率的なマスク付きオートエンコーダを提案する。
複数エージェント設定と単一エージェント設定の両方の実験結果から,Traj-MAEが最先端手法と競合する結果が得られることが示された。
論文 参考訳(メタデータ) (2023-03-12T16:23:27Z) - Real-time Cooperative Vehicle Coordination at Unsignalized Road
Intersections [7.860567520771493]
信号のない道路交差点での協調作業は、連結車両と自動車両の安全運転交通スループットを向上させることを目的としている。
我々はモデルフリーなマルコフ決定プロセス(MDP)を導入し、深層強化学習フレームワークにおける双遅延Deep Deterministic Policy(TD3)に基づく戦略によりそれに取り組む。
提案手法は, 準定常調整シナリオにおいて, ほぼ最適性能を達成し, 現実的な連続流れの制御を大幅に改善できることが示唆された。
論文 参考訳(メタデータ) (2022-05-03T02:56:02Z) - CTRMs: Learning to Construct Cooperative Timed Roadmaps for Multi-agent
Path Planning in Continuous Spaces [20.389416558418382]
協調時間ロードマップ(CTRM)と呼ばれる新しいロードマップの概念を提案する。
CTRMは、エージェント同士の衝突を避けるために、他のエージェントの振る舞いを考慮する方法で、潜在的な溶液経路の周りの重要な位置に集中することができる。
我々は、関連する問題事例と妥当なソリューションのコレクションから生成モデルを学習する機械学習アプローチを開発した。
論文 参考訳(メタデータ) (2022-01-24T05:43:59Z) - Value Function is All You Need: A Unified Learning Framework for Ride
Hailing Platforms [57.21078336887961]
DiDi、Uber、Lyftなどの大型配車プラットフォームは、都市内の数万台の車両を1日中数百万の乗車要求に接続している。
両課題に対処するための統合価値に基づく動的学習フレームワーク(V1D3)を提案する。
論文 参考訳(メタデータ) (2021-05-18T19:22:24Z) - Divide-and-Conquer for Lane-Aware Diverse Trajectory Prediction [71.97877759413272]
軌道予測は、自動運転車が行動を計画し実行するための安全クリティカルなツールです。
近年の手法は,WTAやベスト・オブ・マニーといったマルチコース学習の目標を用いて,強力なパフォーマンスを実現している。
我々の研究は、軌道予測、学習出力、そして運転知識を使って制約を課すことによるより良い予測における2つの重要な課題に対処する。
論文 参考訳(メタデータ) (2021-04-16T17:58:56Z) - Flatland Competition 2020: MAPF and MARL for Efficient Train
Coordination on a Grid World [49.80905654161763]
車両再スケジュール問題(vrsp)の解法開発を目的としたフラットランドコンペティション
VRSPは、交通ネットワークにおける旅行のスケジュールと、故障が発生した場合の車両の再スケジュールに関するものである。
現代の鉄道網の複雑化は、交通の動的リアルタイムスケジューリングを事実上不可能にします。
論文 参考訳(メタデータ) (2021-03-30T17:13:29Z) - Deep Multi-Task Learning for Cooperative NOMA: System Design and
Principles [52.79089414630366]
我々は,近年のディープラーニング(DL)の進歩を反映した,新しいディープ・コラボレーティブなNOMAスキームを開発する。
我々は,システム全体を包括的に最適化できるように,新しいハイブリッドカスケードディープニューラルネットワーク(DNN)アーキテクチャを開発した。
論文 参考訳(メタデータ) (2020-07-27T12:38:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。