論文の概要: Data-Driven Distributed Common Operational Picture from Heterogeneous Platforms using Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2411.05683v1
- Date: Fri, 08 Nov 2024 16:31:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:53:56.407879
- Title: Data-Driven Distributed Common Operational Picture from Heterogeneous Platforms using Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習を用いた異種プラットフォームからのデータ駆動型分散共通運用画像
- Authors: Indranil Sur, Aswin Raghavan, Abrar Rahman, James Z Hare, Daniel Cassenti, Carl Busart,
- Abstract要約: 無人プラットフォームの統合は、状況認識を高め、軍事作戦における「戦争の霧」を軽減することを約束する。
これらのプラットフォームからの膨大なデータの流入を管理することは、Command and Control (C2)システムにとって大きな課題となる。
本研究では,この課題に対処する新しいマルチエージェント学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.3469274919926262
- License:
- Abstract: The integration of unmanned platforms equipped with advanced sensors promises to enhance situational awareness and mitigate the "fog of war" in military operations. However, managing the vast influx of data from these platforms poses a significant challenge for Command and Control (C2) systems. This study presents a novel multi-agent learning framework to address this challenge. Our method enables autonomous and secure communication between agents and humans, which in turn enables real-time formation of an interpretable Common Operational Picture (COP). Each agent encodes its perceptions and actions into compact vectors, which are then transmitted, received and decoded to form a COP encompassing the current state of all agents (friendly and enemy) on the battlefield. Using Deep Reinforcement Learning (DRL), we jointly train COP models and agent's action selection policies. We demonstrate resilience to degraded conditions such as denied GPS and disrupted communications. Experimental validation is performed in the Starcraft-2 simulation environment to evaluate the precision of the COPs and robustness of policies. We report less than 5% error in COPs and policies resilient to various adversarial conditions. In summary, our contributions include a method for autonomous COP formation, increased resilience through distributed prediction, and joint training of COP models and multi-agent RL policies. This research advances adaptive and resilient C2, facilitating effective control of heterogeneous unmanned platforms.
- Abstract(参考訳): 高度なセンサーを備えた無人プラットフォームの統合は、状況認識を高め、軍事作戦における「戦争の霧」を軽減することを約束する。
しかし、これらのプラットフォームからの膨大なデータの流入を管理することは、Command and Control (C2)システムにとって大きな課題となる。
本研究では,この課題に対処する新しいマルチエージェント学習フレームワークを提案する。
本手法により,エージェントと人間間の自律的かつ安全なコミュニケーションが可能となり,解釈可能な共通操作画像(COP)のリアルタイム形成が可能となった。
各エージェントは、その知覚と行動をコンパクトなベクトルにエンコードし、それが送信され、受信され、復号され、戦場における全てのエージェント(友好的かつ敵)の現在の状態を含むCOPを形成する。
我々は,Deep Reinforcement Learning (DRL)を用いてCOPモデルとエージェントの行動選択ポリシーを共同で訓練する。
我々は,GPSや通信障害などの劣化条件に対するレジリエンスを実証する。
Starcraft-2シミュレーション環境で実験的検証を行い、COPの精度とポリシーの堅牢性を評価する。
COPの誤差は5%未満であり, 各種の逆境条件に耐性がある。
まとめると、我々のコントリビューションには、自律型COP生成法、分散予測によるレジリエンスの向上、COPモデルとマルチエージェントRLポリシーの共同トレーニングが含まれる。
この研究は適応的かつレジリエントなC2を推進し、不均一な無人プラットフォームを効果的に制御する。
関連論文リスト
- CuDA2: An approach for Incorporating Traitor Agents into Cooperative Multi-Agent Systems [13.776447110639193]
CMARLシステムに反抗剤を注入する新しい手法を提案する。
TMDPでは、裏切り者は被害者エージェントと同じMARLアルゴリズムを用いて訓練され、その報酬機能は被害者エージェントの報酬の負として設定される。
CuDA2は、特定の被害者エージェントのポリシーに対する攻撃の効率性と攻撃性を高める。
論文 参考訳(メタデータ) (2024-06-25T09:59:31Z) - Enhancing Multi-Agent Coordination through Common Operating Picture
Integration [14.927199437011044]
各エージェントは、その観察、行動、メッセージの履歴を共通のオペレーティング・ピクチャー(COP)に組み込むことができる。
本研究は, COP統合の有効性を実証し, 従来のマルチエージェント強化学習(MARL)法と比較して, COPをベースとしたトレーニングが, アウト・オブ・ディストリビューション初期状態に直面した場合に, 堅牢なポリシーをもたらすことを示す。
論文 参考訳(メタデータ) (2023-11-08T15:08:55Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Hierarchical Reinforcement Learning with Opponent Modeling for
Distributed Multi-agent Cooperation [13.670618752160594]
深層強化学習(DRL)はエージェントと環境の相互作用を通じて多エージェント協調に有望なアプローチを提供する。
従来のDRLソリューションは、ポリシー探索中に連続的なアクション空間を持つ複数のエージェントの高次元に悩まされる。
効率的な政策探索のための高レベル意思決定と低レベル個別制御を用いた階層型強化学習手法を提案する。
論文 参考訳(メタデータ) (2022-06-25T19:09:29Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Coach-assisted Multi-Agent Reinforcement Learning Framework for
Unexpected Crashed Agents [120.91291581594773]
本稿では,予期せぬクラッシュを伴う協調型マルチエージェント強化学習システムの公式な定式化について述べる。
本稿では,教師支援型多エージェント強化学習フレームワークを提案する。
私たちの知る限りでは、この研究はマルチエージェントシステムにおける予期せぬクラッシュを初めて研究したものです。
論文 参考訳(メタデータ) (2022-03-16T08:22:45Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - Relative Distributed Formation and Obstacle Avoidance with Multi-agent
Reinforcement Learning [20.401609420707867]
マルチエージェント強化学習(MARL)に基づく分散生成・障害物回避手法を提案する。
提案手法は, 障害物回避における生成誤差, 生成収束率, オンパー成功率に関して, ベースラインと比較して高い性能を実現する。
論文 参考訳(メタデータ) (2021-11-14T13:02:45Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z) - Model-based Reinforcement Learning for Decentralized Multiagent
Rendezvous [66.6895109554163]
目標を他のエージェントと整合させる人間の能力の下にあるのは、他人の意図を予測し、自分たちの計画を積極的に更新する能力である。
分散型マルチエージェントレンデブーのためのモデルに基づく強化学習手法である階層型予測計画(HPP)を提案する。
論文 参考訳(メタデータ) (2020-03-15T19:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。