論文の概要: Long Short-Term Memory for Spatial Encoding in Multi-Agent Path Planning
- arxiv url: http://arxiv.org/abs/2203.10823v1
- Date: Mon, 21 Mar 2022 09:16:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 15:15:45.503314
- Title: Long Short-Term Memory for Spatial Encoding in Multi-Agent Path Planning
- Title(参考訳): 多元経路計画における空間符号化のための長期記憶
- Authors: Marc R. Schlichting, Stefan Notter, and Walter Fichter
- Abstract要約: 強化学習は、望ましい経路計画行動に対応する政策ネットワークの訓練に使用される。
長期記憶モジュール(Long Short-Term Memory Module)は、不特定数の状態と、不定数のエージェントをエンコードするために提案される。
提案手法は,実環境における衝突のない自律走行を行う最大4機のドローンの飛行試験結果を示すことによって検証される。
- 参考スコア(独自算出の注目度): 0.34410212782758043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning-based path planning for multi-agent systems of varying
size constitutes a research topic with increasing significance as progress in
domains such as urban air mobility and autonomous aerial vehicles continues.
Reinforcement learning with continuous state and action spaces is used to train
a policy network that accommodates desirable path planning behaviors and can be
used for time-critical applications. A Long Short-Term Memory module is
proposed to encode an unspecified number of states for a varying, indefinite
number of agents. The described training strategies and policy architecture
lead to a guidance that scales to an infinite number of agents and unlimited
physical dimensions, although training takes place at a smaller scale. The
guidance is implemented on a low-cost, off-the-shelf onboard computer. The
feasibility of the proposed approach is validated by presenting flight test
results of up to four drones, autonomously navigating collision-free in a
real-world environment.
- Abstract(参考訳): 異なる大きさのマルチエージェントシステムのための強化学習に基づく経路計画は、都市空輸や自律飛行車といった分野の進展が続くにつれて重要性が増す研究課題となっている。
継続的な状態と行動空間による強化学習は、望ましい経路計画行動に対応し、時間クリティカルなアプリケーションに使用できるポリシーネットワークのトレーニングに使用される。
長期間のメモリモジュールは、さまざまな無期限のエージェントに対して、未特定数の状態をエンコードするために提案されている。
説明されたトレーニング戦略とポリシーアーキテクチャは、トレーニングはより小さなスケールで行われるが、無限のエージェントと無限の物理的次元にスケールするガイダンスにつながる。
このガイダンスは、低価格で市販のコンピュータで実装されている。
提案手法の有効性は、実環境における衝突のない自律飛行による最大4機の飛行試験結果の提示によって検証される。
関連論文リスト
- Multi-agent Path Finding for Timed Tasks using Evolutionary Games [1.3023548510259344]
我々のアルゴリズムは,少なくとも1桁の精度で深部RL法よりも高速であることを示す。
以上の結果から,他の方法と比較してエージェント数の増加にともなってスケールが向上することが示唆された。
論文 参考訳(メタデータ) (2024-11-15T20:10:25Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Goal-Conditioned Reinforcement Learning with Disentanglement-based
Reachability Planning [14.370384505230597]
本稿では,Reachability Planning (REPlan) と組み合わせた目標条件付きRLアルゴリズムを提案する。
我々のREPlanは、時間的に拡張されたタスクを解く上で、従来の最先端の手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-07-20T13:08:14Z) - Planning Immediate Landmarks of Targets for Model-Free Skill Transfer
across Agents [34.56191646231944]
我々はPILoT、即時ターゲットのランドマーク計画を提案する。
PILoTはゴール条件のステートプランナーを学習し、ゴールプランナーを蒸留してモデルなしのスタイルで即時ランドマークを計画する。
PILoTは,アクション空間やダイナミックスを横断する数発のショット転送など,様々なトランスファーの課題に対して有効であることを示す。
論文 参考訳(メタデータ) (2022-12-18T08:03:21Z) - Long-HOT: A Modular Hierarchical Approach for Long-Horizon Object
Transport [83.06265788137443]
我々は、時間的拡張ナビゲーションのための新しいオブジェクトトランスポートタスクと新しいモジュラーフレームワークを提案することで、長距離探査と航法を具現化する上で重要な課題に対処する。
私たちの最初の貢献は、深層探査と長期計画に焦点を当てた新しいLong-HOT環境の設計である。
重み付けされたフロンティアの助けを借りて探索を行うために,シーンのトポロジカルグラフを構築するモジュラー階層輸送ポリシー(HTP)を提案する。
論文 参考訳(メタデータ) (2022-10-28T05:30:49Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Deep Interactive Motion Prediction and Planning: Playing Games with
Motion Prediction Models [162.21629604674388]
本研究は,新しい対話型マルチエージェントニューラルネットワークポリシを予測モデルの一部として使用するゲーム理論モデル予測制御器(MPC)を提案する。
本手法の成功の基礎は,周辺エージェントの状態と地図情報に基づいて車両を操縦できる,新しいマルチエージェントポリシーネットワークの設計である。
論文 参考訳(メタデータ) (2022-04-05T17:58:18Z) - UAV Path Planning for Wireless Data Harvesting: A Deep Reinforcement
Learning Approach [18.266087952180733]
本稿では,IoT(Internet of Things)デバイスからのUAV対応データ収集に対するエンドツーエンド強化学習手法を提案する。
自律ドローンは、限られた飛行時間と障害物回避を受ける分散センサーノードからデータを収集する。
提案するネットワークアーキテクチャにより,エージェントが様々なシナリオパラメータの移動決定を行うことができることを示す。
論文 参考訳(メタデータ) (2020-07-01T15:14:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。