論文の概要: Decentralized Reinforcement Learning for Multi-Target Search and
Detection by a Team of Drones
- arxiv url: http://arxiv.org/abs/2103.09520v1
- Date: Wed, 17 Mar 2021 09:04:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-18 12:50:47.095226
- Title: Decentralized Reinforcement Learning for Multi-Target Search and
Detection by a Team of Drones
- Title(参考訳): ドローンチームによる多目的探索・検出のための分散強化学習
- Authors: Roi Yehoshua, Juan Heredia-Juesas, Yushu Wu, Christopher Amato, Jose
Martinez-Lorenzo
- Abstract要約: 対象の探索と検出は、カバレッジ、監視、探索、観測、追跡回避など、さまざまな決定問題を含む。
我々は,未知の領域における静的な目標のセットを特定するために,航空機群(ドローン)を協調させるマルチエージェント深部強化学習法(MADRL)を開発した。
- 参考スコア(独自算出の注目度): 12.055303570215335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Targets search and detection encompasses a variety of decision problems such
as coverage, surveillance, search, observing and pursuit-evasion along with
others. In this paper we develop a multi-agent deep reinforcement learning
(MADRL) method to coordinate a group of aerial vehicles (drones) for the
purpose of locating a set of static targets in an unknown area. To that end, we
have designed a realistic drone simulator that replicates the dynamics and
perturbations of a real experiment, including statistical inferences taken from
experimental data for its modeling. Our reinforcement learning method, which
utilized this simulator for training, was able to find near-optimal policies
for the drones. In contrast to other state-of-the-art MADRL methods, our method
is fully decentralized during both learning and execution, can handle
high-dimensional and continuous observation spaces, and does not require tuning
of additional hyperparameters.
- Abstract(参考訳): ターゲットの探索と検出は、カバレッジ、サーベイランス、サーベイ、オブザーバレーション、追跡回避など、さまざまな意思決定問題を含んでいる。
本稿では,未知の領域における静的な目標のセットを特定するために,航空機群(ドローン)を協調させるマルチエージェント深部強化学習(MADRL)手法を提案する。
そこで我々は,実験データから得られた統計的推測を含む実実験の力学と摂動を再現する,現実的なドローンシミュレータを設計した。
このシミュレーターを訓練に利用した強化学習方法は,ドローンの最適に近い方針を見つけることができた。
従来のMADRL法とは対照的に,本手法は学習と実行の両方において完全に分散化されており,高次元かつ連続的な観測空間を処理でき,追加のハイパーパラメータのチューニングを必要としない。
関連論文リスト
- Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。
提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Federated Learning for Misbehaviour Detection with Variational Autoencoders and Gaussian Mixture Models [0.2999888908665658]
Federated Learning (FL)は、機械学習(ML)モデルを協調的にトレーニングするための魅力的なアプローチになっている。
本研究は、車載環境における潜在的な不適切な行動を特定するための、新しい教師なしFLアプローチを提案する。
当社は、モデルアグリゲーションの目的のために、パブリッククラウドサービスのコンピューティング能力を活用しています。
論文 参考訳(メタデータ) (2024-05-16T08:49:50Z) - Enhancing Robotic Navigation: An Evaluation of Single and
Multi-Objective Reinforcement Learning Strategies [0.9208007322096532]
本研究では,ロボットが目的達成に向けて効果的に移動できるよう訓練するための単目的と多目的の強化学習法の比較分析を行った。
報酬関数を変更して報酬のベクターを返却し、それぞれ異なる目的に関連付けることで、ロボットはそれぞれの目標を効果的にバランスさせるポリシーを学ぶ。
論文 参考訳(メタデータ) (2023-12-13T08:00:26Z) - Distributed multi-agent target search and tracking with Gaussian process
and reinforcement learning [26.499110405106812]
分散プロセスに基づくターゲットマップ構築によるマルチエージェント強化学習手法を提案する。
シミュレーションにおける訓練された方針の性能と伝達性を評価し, 小型無人航空機の群集上での手法を実証した。
論文 参考訳(メタデータ) (2023-08-29T01:53:14Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Aerial View Goal Localization with Reinforcement Learning [6.165163123577484]
本稿では,実際のUAVへのアクセスを必要とせずに,SAR(Search-and-Rescue)のようなセットアップをエミュレートするフレームワークを提案する。
この枠組みでは、エージェントが空中画像(探索領域のプロキシ)上で動作し、視覚的手がかりとして記述されたゴールのローカライズを行う。
AiRLocは、探索(遠方目標探索)と搾取(近方目標の局所化)を分離する強化学習(RL)に基づくモデルである。
論文 参考訳(メタデータ) (2022-09-08T10:27:53Z) - Space Non-cooperative Object Active Tracking with Deep Reinforcement
Learning [1.212848031108815]
DRLAVTと命名されたDQNアルゴリズムに基づくエンドツーエンドのアクティブなトラッキング手法を提案する。
追尾宇宙船のアプローチを、色やRGBD画像にのみ依存した任意の空間の非協力目標に導くことができる。
位置ベースのビジュアルサーボベースラインアルゴリズムでは、最先端の2DモノクロトラッカーであるSiamRPNをはるかに上回っている。
論文 参考訳(メタデータ) (2021-12-18T06:12:24Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Model-based Reinforcement Learning for Decentralized Multiagent
Rendezvous [66.6895109554163]
目標を他のエージェントと整合させる人間の能力の下にあるのは、他人の意図を予測し、自分たちの計画を積極的に更新する能力である。
分散型マルチエージェントレンデブーのためのモデルに基づく強化学習手法である階層型予測計画(HPP)を提案する。
論文 参考訳(メタデータ) (2020-03-15T19:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。