論文の概要: Decentralized Multi-Agent Reinforcement Learning with Global State
Prediction
- arxiv url: http://arxiv.org/abs/2306.12926v2
- Date: Mon, 28 Aug 2023 17:33:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 23:11:02.559077
- Title: Decentralized Multi-Agent Reinforcement Learning with Global State
Prediction
- Title(参考訳): グローバルな状態予測による分散マルチエージェント強化学習
- Authors: Joshua Bloom, Pranjal Paliwal, Apratim Mukherjee, Carlo Pinciroli
- Abstract要約: 非定常性(non-stationarity)は、2つ以上のロボットが個別または共有ポリシーを同時に更新する際に発生する。
我々は、他のエージェントに対するグローバルな知識が欠如していることから、部分的に観測可能なマルコフ決定プロセスとしてこの問題を提起する。
最初は、ロボットはメッセージを交換せず、移動対象のプッシュ&プルを通じて暗黙のコミュニケーションに頼るように訓練される。
第2のアプローチでは、グローバルステート予測(GSP)を導入し、Swarm全体の信念を予測し、将来の状態を予測できるように訓練した。
- 参考スコア(独自算出の注目度): 3.5843971648706296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning (DRL) has seen remarkable success in the control
of single robots. However, applying DRL to robot swarms presents significant
challenges. A critical challenge is non-stationarity, which occurs when two or
more robots update individual or shared policies concurrently, thereby engaging
in an interdependent training process with no guarantees of convergence.
Circumventing non-stationarity typically involves training the robots with
global information about other agents' states and/or actions. In contrast, in
this paper we explore how to remove the need for global information. We pose
our problem as a Partially Observable Markov Decision Process, due to the
absence of global knowledge on other agents. Using collective transport as a
testbed scenario, we study two approaches to multi-agent training. In the
first, the robots exchange no messages, and are trained to rely on implicit
communication through push-and-pull on the object to transport. In the second
approach, we introduce Global State Prediction (GSP), a network trained to
forma a belief over the swarm as a whole and predict its future states. We
provide a comprehensive study over four well-known deep reinforcement learning
algorithms in environments with obstacles, measuring performance as the
successful transport of the object to the goal within a desired time-frame.
Through an ablation study, we show that including GSP boosts performance and
increases robustness when compared with methods that use global knowledge.
- Abstract(参考訳): 深部強化学習(DRL)は単一ロボットの制御において顕著な成功を収めた。
しかし、DRLをロボット群に適用することは大きな課題である。
重要な課題は非定常性であり、2つ以上のロボットが個別または共有のポリシーを同時に更新することで、収束の保証なしに相互依存のトレーニングプロセスに参加する。
非定常性を回避するには、通常、他のエージェントの状態や行動に関するグローバルな情報でロボットを訓練する。
対照的に,本稿では,グローバル情報の必要性をなくす方法について検討する。
我々は、他のエージェントに対するグローバルな知識が欠如していることから、部分的に観測可能なマルコフ決定プロセスとしてこの問題を提起する。
テストベッドシナリオとして集合輸送を用いたマルチエージェントトレーニングの2つのアプローチについて検討した。
最初は、ロボットはメッセージを交換せず、移動対象のプッシュ&プルを通じて暗黙のコミュニケーションに頼るように訓練される。
第2のアプローチでは、グローバルステート予測(GSP)を導入し、Swarm全体の信念を予測し、将来の状態を予測できるように訓練した。
障害のある環境での4つのよく知られた深層強化学習アルゴリズムに関する包括的研究を行い、望ましい時間枠内の目標へのオブジェクトの移動としての性能を測定した。
アブレーション研究により,グローバル知識を用いた手法と比較して,GSPを含むと性能が向上し,堅牢性が向上することが示された。
関連論文リスト
- Learning Vision-based Pursuit-Evasion Robot Policies [54.52536214251999]
我々は、部分的に観察可能なロボットの監督を生成する完全観測可能なロボットポリシーを開発する。
我々は、RGB-Dカメラを搭載した4足歩行ロボットに、野生での追従回避のインタラクションにポリシーを展開させる。
論文 参考訳(メタデータ) (2023-08-30T17:59:05Z) - Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from
Offline Data [101.43350024175157]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。
我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。
コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-06T01:36:56Z) - Reinforcement Learning for UAV control with Policy and Reward Shaping [0.7127008801193563]
本研究では,RLエージェントが報酬形成と政策形成を同時に行うことで,ドローンを制御できるように指導する。
その結果,両手法を同時に訓練したエージェントは,政策ベースアプローチのみを用いて訓練したエージェントよりも報酬が低いことがわかった。
論文 参考訳(メタデータ) (2022-12-06T14:46:13Z) - Don't Start From Scratch: Leveraging Prior Data to Automate Robotic
Reinforcement Learning [70.70104870417784]
強化学習(RL)アルゴリズムは、ロボットシステムの自律的なスキル獲得を可能にするという約束を持っている。
現実のロボットRLは、通常、環境をリセットするためにデータ収集と頻繁な人間の介入を必要とする。
本研究では,従来のタスクから収集した多様なオフラインデータセットを効果的に活用することで,これらの課題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2022-07-11T08:31:22Z) - Centralizing State-Values in Dueling Networks for Multi-Robot
Reinforcement Learning Mapless Navigation [87.85646257351212]
本稿では,CTDE(Training and Decentralized Execution)パラダイムにおけるマルチロボットマップレスナビゲーションの問題点について考察する。
この問題は、各ロボットが観察を他のロボットと明示的に共有することなく、その経路を考えると困難である。
我々は,集中型状態値ネットワークを用いて共同状態値を計算するCTDEの新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-16T16:47:00Z) - SABER: Data-Driven Motion Planner for Autonomously Navigating
Heterogeneous Robots [112.2491765424719]
我々は、データ駆動型アプローチを用いて、異種ロボットチームをグローバルな目標に向けてナビゲートする、エンドツーエンドのオンラインモーションプランニングフレームワークを提案する。
モデル予測制御(SMPC)を用いて,ロボット力学を満たす制御入力を計算し,障害物回避時の不確実性を考慮した。
リカレントニューラルネットワークは、SMPC有限時間地平線解における将来の状態の不確かさを素早く推定するために用いられる。
ディープQ学習エージェントがハイレベルパスプランナーとして機能し、SMPCにロボットを望ましいグローバルな目標に向けて移動させる目標位置を提供する。
論文 参考訳(メタデータ) (2021-08-03T02:56:21Z) - Learning Connectivity for Data Distribution in Robot Teams [96.39864514115136]
グラフニューラルネットワーク(GNN)を用いたアドホックネットワークにおけるデータ分散のためのタスク非依存,分散化,低レイテンシ手法を提案する。
当社のアプローチは、グローバル状態情報に基づいたマルチエージェントアルゴリズムを各ロボットで利用可能にすることで機能させます。
我々は,情報の平均年齢を報酬関数として強化学習を通じて分散gnn通信政策を訓練し,タスク固有の報酬関数と比較してトレーニング安定性が向上することを示す。
論文 参考訳(メタデータ) (2021-03-08T21:48:55Z) - Mobile Robot Path Planning in Dynamic Environments through Globally
Guided Reinforcement Learning [12.813442161633116]
本稿では,多ボット計画問題の解決を目的として,グローバルガイド型学習強化手法(G2RL)を提案する。
G2RLは任意の環境に一般化する新しい経路報酬構造を組み込んでいる。
提案手法は,異なるマップタイプ,障害物密度,ロボット数にまたがって評価する。
論文 参考訳(メタデータ) (2020-05-11T20:42:29Z) - Deep Adversarial Reinforcement Learning for Object Disentangling [36.66974848126079]
本稿では, 廃棄物の密接化を図り, 対人強化学習(ARL)フレームワークを提案する。
ARLフレームワークは、元のエージェントであるプロタゴニストを挑戦する状態に操るために訓練された敵を利用する。
本手法は,ロボット制御のためのエンドツーエンドシステムを用いて,難易度の高い物体分離タスクを学習することにより,シナリオの学習からテストまでを一般化できることを示す。
論文 参考訳(メタデータ) (2020-03-08T13:20:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。