Fugu-MT 論文翻訳(概要): Decentralized Multi-Agent Reinforcement Learning with Global State Prediction

論文の概要: Decentralized Multi-Agent Reinforcement Learning with Global State Prediction

arxiv url: http://arxiv.org/abs/2306.12926v2
Date: Mon, 28 Aug 2023 17:33:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-29 23:11:02.559077
Title: Decentralized Multi-Agent Reinforcement Learning with Global State Prediction
Title（参考訳）: グローバルな状態予測による分散マルチエージェント強化学習
Authors: Joshua Bloom, Pranjal Paliwal, Apratim Mukherjee, Carlo Pinciroli
Abstract要約: 非定常性(non-stationarity)は、2つ以上のロボットが個別または共有ポリシーを同時に更新する際に発生する。我々は、他のエージェントに対するグローバルな知識が欠如していることから、部分的に観測可能なマルコフ決定プロセスとしてこの問題を提起する。最初は、ロボットはメッセージを交換せず、移動対象のプッシュ&プルを通じて暗黙のコミュニケーションに頼るように訓練される。第2のアプローチでは、グローバルステート予測(GSP)を導入し、Swarm全体の信念を予測し、将来の状態を予測できるように訓練した。
参考スコア（独自算出の注目度）: 3.5843971648706296
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep reinforcement learning (DRL) has seen remarkable success in the control of single robots. However, applying DRL to robot swarms presents significant challenges. A critical challenge is non-stationarity, which occurs when two or more robots update individual or shared policies concurrently, thereby engaging in an interdependent training process with no guarantees of convergence. Circumventing non-stationarity typically involves training the robots with global information about other agents' states and/or actions. In contrast, in this paper we explore how to remove the need for global information. We pose our problem as a Partially Observable Markov Decision Process, due to the absence of global knowledge on other agents. Using collective transport as a testbed scenario, we study two approaches to multi-agent training. In the first, the robots exchange no messages, and are trained to rely on implicit communication through push-and-pull on the object to transport. In the second approach, we introduce Global State Prediction (GSP), a network trained to forma a belief over the swarm as a whole and predict its future states. We provide a comprehensive study over four well-known deep reinforcement learning algorithms in environments with obstacles, measuring performance as the successful transport of the object to the goal within a desired time-frame. Through an ablation study, we show that including GSP boosts performance and increases robustness when compared with methods that use global knowledge.
Abstract（参考訳）: 深部強化学習(DRL)は単一ロボットの制御において顕著な成功を収めた。しかし、DRLをロボット群に適用することは大きな課題である。重要な課題は非定常性であり、2つ以上のロボットが個別または共有のポリシーを同時に更新することで、収束の保証なしに相互依存のトレーニングプロセスに参加する。非定常性を回避するには、通常、他のエージェントの状態や行動に関するグローバルな情報でロボットを訓練する。対照的に,本稿では,グローバル情報の必要性をなくす方法について検討する。我々は、他のエージェントに対するグローバルな知識が欠如していることから、部分的に観測可能なマルコフ決定プロセスとしてこの問題を提起する。テストベッドシナリオとして集合輸送を用いたマルチエージェントトレーニングの2つのアプローチについて検討した。最初は、ロボットはメッセージを交換せず、移動対象のプッシュ&プルを通じて暗黙のコミュニケーションに頼るように訓練される。第2のアプローチでは、グローバルステート予測(GSP)を導入し、Swarm全体の信念を予測し、将来の状態を予測できるように訓練した。障害のある環境での4つのよく知られた深層強化学習アルゴリズムに関する包括的研究を行い、望ましい時間枠内の目標へのオブジェクトの移動としての性能を測定した。アブレーション研究により,グローバル知識を用いた手法と比較して,GSPを含むと性能が向上し,堅牢性が向上することが示された。

関連論文リスト

A Retrospective on the Robot Air Hockey Challenge: Benchmarking Robust, Reliable, and Safe Learning Techniques for Real-world Robotics [53.33976793493801]
私たちは、NeurIPS 2023カンファレンスでRobot Air Hockey Challengeを組織しました。我々は、シム・トゥ・リアルギャップ、低レベルの制御問題、安全性問題、リアルタイム要件、実世界のデータの限られた可用性など、ロボット工学における実践的な課題に焦点を当てる。その結果、学習に基づくアプローチと事前知識を組み合わせたソリューションは、実際のデプロイメントが困難である場合にデータのみに依存するソリューションよりも優れていることがわかった。
論文参考訳（メタデータ） (2024-11-08T17:20:47Z)
Generalizability of Graph Neural Networks for Decentralized Unlabeled Motion Planning [72.86540018081531]
ラベルなしの動作計画では、衝突回避を確保しながら、ロボットのセットを目標の場所に割り当てる。この問題は、探査、監視、輸送などの応用において、マルチロボットシステムにとって不可欠なビルディングブロックを形成している。この問題に対処するために、各ロボットは、その400ドルのアネレストロボットと$k$アネレストターゲットの位置のみを知っている分散環境で対処する。
論文参考訳（メタデータ） (2024-09-29T23:57:25Z)
Selective Exploration and Information Gathering in Search and Rescue Using Hierarchical Learning Guided by Natural Language Input [5.522800137785975]
本稿では,大規模言語モデル(LLM)と階層的強化学習(HRL)フレームワークを連携させるシステムを提案する。提案システムは,人間の利害関係者からの言語入力を実用的なRLインサイトへ翻訳し,検索戦略を調整するように設計されている。 LLMによる人為的情報の利用とHRLによるタスク実行の構造化により、長い地平線とスパース報酬を特徴とする環境におけるエージェントの学習効率と意思決定プロセスを大幅に改善する。
論文参考訳（メタデータ） (2024-09-20T12:27:47Z)
Learning Vision-based Pursuit-Evasion Robot Policies [54.52536214251999]
我々は、部分的に観察可能なロボットの監督を生成する完全観測可能なロボットポリシーを開発する。我々は、RGB-Dカメラを搭載した4足歩行ロボットに、野生での追従回避のインタラクションにポリシーを展開させる。
論文参考訳（メタデータ） (2023-08-30T17:59:05Z)
Reinforcement Learning for UAV control with Policy and Reward Shaping [0.7127008801193563]
本研究では,RLエージェントが報酬形成と政策形成を同時に行うことで,ドローンを制御できるように指導する。その結果,両手法を同時に訓練したエージェントは,政策ベースアプローチのみを用いて訓練したエージェントよりも報酬が低いことがわかった。
論文参考訳（メタデータ） (2022-12-06T14:46:13Z)
Don't Start From Scratch: Leveraging Prior Data to Automate Robotic Reinforcement Learning [70.70104870417784]
強化学習(RL)アルゴリズムは、ロボットシステムの自律的なスキル獲得を可能にするという約束を持っている。現実のロボットRLは、通常、環境をリセットするためにデータ収集と頻繁な人間の介入を必要とする。本研究では,従来のタスクから収集した多様なオフラインデータセットを効果的に活用することで,これらの課題にどのように対処できるかを検討する。
論文参考訳（メタデータ） (2022-07-11T08:31:22Z)
Centralizing State-Values in Dueling Networks for Multi-Robot Reinforcement Learning Mapless Navigation [87.85646257351212]
本稿では,CTDE(Training and Decentralized Execution)パラダイムにおけるマルチロボットマップレスナビゲーションの問題点について考察する。この問題は、各ロボットが観察を他のロボットと明示的に共有することなく、その経路を考えると困難である。我々は,集中型状態値ネットワークを用いて共同状態値を計算するCTDEの新しいアーキテクチャを提案する。
論文参考訳（メタデータ） (2021-12-16T16:47:00Z)
Learning Connectivity for Data Distribution in Robot Teams [96.39864514115136]
グラフニューラルネットワーク(GNN)を用いたアドホックネットワークにおけるデータ分散のためのタスク非依存,分散化,低レイテンシ手法を提案する。当社のアプローチは、グローバル状態情報に基づいたマルチエージェントアルゴリズムを各ロボットで利用可能にすることで機能させます。我々は,情報の平均年齢を報酬関数として強化学習を通じて分散gnn通信政策を訓練し,タスク固有の報酬関数と比較してトレーニング安定性が向上することを示す。
論文参考訳（メタデータ） (2021-03-08T21:48:55Z)
Deep Adversarial Reinforcement Learning for Object Disentangling [36.66974848126079]
本稿では, 廃棄物の密接化を図り, 対人強化学習(ARL)フレームワークを提案する。 ARLフレームワークは、元のエージェントであるプロタゴニストを挑戦する状態に操るために訓練された敵を利用する。本手法は,ロボット制御のためのエンドツーエンドシステムを用いて,難易度の高い物体分離タスクを学習することにより,シナリオの学習からテストまでを一般化できることを示す。
論文参考訳（メタデータ） (2020-03-08T13:20:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。