論文の概要: Adaptive Target Localization under Uncertainty using Multi-Agent Deep Reinforcement Learning with Knowledge Transfer
- arxiv url: http://arxiv.org/abs/2501.10924v1
- Date: Sun, 19 Jan 2025 02:58:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:23:54.165554
- Title: Adaptive Target Localization under Uncertainty using Multi-Agent Deep Reinforcement Learning with Knowledge Transfer
- Title(参考訳): 知識伝達を伴う多エージェント深部強化学習を用いた不確かさ下での適応的ターゲット位置推定
- Authors: Ahmed Alagha, Rabeb Mizouni, Shakti Singh, Jamal Bentahar, Hadi Otrok,
- Abstract要約: 本研究は,不確実環境におけるターゲット位置推定のためのMADRLに基づく新しい手法を提案する。
エージェントの観察は、環境に不可欠な情報を捉えるために最適化された方法で設計されている。
ディープラーニングモデルは、MADRLモデルからの知識に基づいて、到達不可能な場合のターゲット位置を正確に推定する。
- 参考スコア(独自算出の注目度): 15.605693371392212
- License:
- Abstract: Target localization is a critical task in sensitive applications, where multiple sensing agents communicate and collaborate to identify the target location based on sensor readings. Existing approaches investigated the use of Multi-Agent Deep Reinforcement Learning (MADRL) to tackle target localization. Nevertheless, these methods do not consider practical uncertainties, like false alarms when the target does not exist or when it is unreachable due to environmental complexities. To address these drawbacks, this work proposes a novel MADRL-based method for target localization in uncertain environments. The proposed MADRL method employs Proximal Policy Optimization to optimize the decision-making of sensing agents, which is represented in the form of an actor-critic structure using Convolutional Neural Networks. The observations of the agents are designed in an optimized manner to capture essential information in the environment, and a team-based reward functions is proposed to produce cooperative agents. The MADRL method covers three action dimensionalities that control the agents' mobility to search the area for the target, detect its existence, and determine its reachability. Using the concept of Transfer Learning, a Deep Learning model builds on the knowledge from the MADRL model to accurately estimating the target location if it is unreachable, resulting in shared representations between the models for faster learning and lower computational complexity. Collectively, the final combined model is capable of searching for the target, determining its existence and reachability, and estimating its location accurately. The proposed method is tested using a radioactive target localization environment and benchmarked against existing methods, showing its efficacy.
- Abstract(参考訳): ターゲットローカライゼーションはセンシティブなアプリケーションにおいて重要なタスクであり、複数のセンサーエージェントが通信して、センサーの読み取りに基づいてターゲット位置を識別する。
既存のアプローチでは,マルチエージェント・ディープ強化学習(MADRL)を用いて目標位置推定に対処する手法が検討されている。
しかしながら、これらの手法は、ターゲットが存在しない場合や環境の複雑さのために到達できない場合など、現実的な不確実性を考慮していない。
これらの欠点に対処するため,不確実な環境下でのターゲットローカライゼーションのためのMADRLに基づく新しい手法を提案する。
提案手法は, 畳み込みニューラルネットワークを用いたアクター・クリティカルな構造を表現した, センサエージェントの意思決定を最適化するために, 近似ポリシー最適化を用いる。
エージェントの観察は環境中の重要な情報を捉えるために最適化された方法で設計され、協調エージェントを生成するためにチームベースの報酬関数が提案される。
MADRL法は,対象領域を探索し,その存在を検知し,到達可能性を決定するために,エージェントの移動性を制御する3つの行動次元を包含する。
トランスファーラーニングの概念を用いて、ディープラーニングモデルは、MADRLモデルからの知識に基づいて、到達不可能な場合のターゲット位置を正確に推定し、より高速な学習とより低い計算複雑性のためのモデル間の共有表現をもたらす。
最終的な組み合わせモデルは、ターゲットを探索し、その存在と到達可能性を決定し、その位置を正確に推定することができる。
提案手法は, 放射性目標位置決め環境を用いて試験を行い, 既存の方法と比較し, 有効性を示した。
関連論文リスト
- Diffusion as Reasoning: Enhancing Object Goal Navigation with LLM-Biased Diffusion Model [9.939998139837426]
本稿では,オブジェクトの統計分布パターンを意味マップで学習するために拡散モデルを訓練することにより,ObjectNavタスクの解法を提案する。
また,大域的対象バイアスと局所的LLMバイアス法を提案し,対象オブジェクトをより効果的に生成するために拡散モデルを制約することができる。
未知の領域で生成されたマップに基づいて、エージェントはターゲットの予測位置を目標として設定し、それに向かって移動する。
論文 参考訳(メタデータ) (2024-10-29T08:10:06Z) - Autonomous Goal Detection and Cessation in Reinforcement Learning: A Case Study on Source Term Estimation [24.984938229619075]
強化学習は動的環境における意思決定プロセスに革命をもたらした。
正確な環境情報がないため、明確なフィードバック信号の提供は困難である。
本研究では,タスク完了時の自律目標検出と停止のための自己フィードバック機構を開発する。
論文 参考訳(メタデータ) (2024-09-14T21:42:17Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Self-training through Classifier Disagreement for Cross-Domain Opinion
Target Extraction [62.41511766918932]
オピニオンターゲット抽出(OTE)またはアスペクト抽出(AE)は意見マイニングの基本的な課題である。
最近の研究は、現実世界のシナリオでよく見られるクロスドメインのOTEに焦点を当てている。
そこで本稿では,ドメイン固有の教師と学生のネットワークから出力されるモデルが未学習のターゲットデータと一致しない対象サンプルを選択するためのSSLアプローチを提案する。
論文 参考訳(メタデータ) (2023-02-28T16:31:17Z) - Reinforcement Learning for Agile Active Target Sensing with a UAV [10.070339628481445]
本稿では,情報トラジェクトリを計画するための深層強化学習手法を開発する。
ターゲット状態に対する現在の信念を活用し、高忠実度分類のための不正確なセンサーモデルを含む。
提案手法の特異な特徴は,真の目標分布から様々な量の偏差が生じることにある。
論文 参考訳(メタデータ) (2022-12-16T01:01:17Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Triggering Failures: Out-Of-Distribution detection by learning from
local adversarial attacks in Semantic Segmentation [76.2621758731288]
セグメンテーションにおけるアウト・オブ・ディストリビューション(OOD)オブジェクトの検出に取り組む。
私たちの主な貢献は、ObsNetと呼ばれる新しいOOD検出アーキテクチャであり、ローカル・アタック(LAA)に基づく専用トレーニングスキームと関連付けられています。
3つの異なるデータセットの文献の最近の10つの手法と比較して,速度と精度の両面で最高の性能が得られることを示す。
論文 参考訳(メタデータ) (2021-08-03T17:09:56Z) - Teaching Agents how to Map: Spatial Reasoning for Multi-Object
Navigation [11.868792440783055]
与えられた位置におけるエージェントと到達目標の間の空間的関係を定量化する指標を推定する学習は、多目的ナビゲーション設定において高い正の影響を及ぼすことを示す。
提案された補助的損失で訓練された文献の学習ベースのエージェントは、マルチオブジェクトナビゲーションチャレンジへの勝利であった。
論文 参考訳(メタデータ) (2021-07-13T12:01:05Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z) - Reinforcement Learning for UAV Autonomous Navigation, Mapping and Target
Detection [36.79380276028116]
本研究では,無人航空機(UAV)に低高度レーダーを装備し,未知の環境下での飛行における共同検出・マッピング・ナビゲーション問題について検討する。
目的は、マッピング精度を最大化する目的で軌道を最適化することであり、目標検出の観点からは、測定が不十分な領域を避けることである。
論文 参考訳(メタデータ) (2020-05-05T20:39:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。