論文の概要: Centralizing State-Values in Dueling Networks for Multi-Robot
Reinforcement Learning Mapless Navigation
- arxiv url: http://arxiv.org/abs/2112.09012v1
- Date: Thu, 16 Dec 2021 16:47:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 14:54:51.033285
- Title: Centralizing State-Values in Dueling Networks for Multi-Robot
Reinforcement Learning Mapless Navigation
- Title(参考訳): マルチロボット強化学習マップレスナビゲーションのためのデュエルネットワークにおける状態値の集中化
- Authors: Enrico Marchesini, Alessandro Farinelli
- Abstract要約: 本稿では,CTDE(Training and Decentralized Execution)パラダイムにおけるマルチロボットマップレスナビゲーションの問題点について考察する。
この問題は、各ロボットが観察を他のロボットと明示的に共有することなく、その経路を考えると困難である。
我々は,集中型状態値ネットワークを用いて共同状態値を計算するCTDEの新しいアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 87.85646257351212
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of multi-robot mapless navigation in the popular
Centralized Training and Decentralized Execution (CTDE) paradigm. This problem
is challenging when each robot considers its path without explicitly sharing
observations with other robots and can lead to non-stationary issues in Deep
Reinforcement Learning (DRL). The typical CTDE algorithm factorizes the joint
action-value function into individual ones, to favor cooperation and achieve
decentralized execution. Such factorization involves constraints (e.g.,
monotonicity) that limit the emergence of novel behaviors in an individual as
each agent is trained starting from a joint action-value. In contrast, we
propose a novel architecture for CTDE that uses a centralized state-value
network to compute a joint state-value, which is used to inject global state
information in the value-based updates of the agents. Consequently, each model
computes its gradient update for the weights, considering the overall state of
the environment. Our idea follows the insights of Dueling Networks as a
separate estimation of the joint state-value has both the advantage of
improving sample efficiency, while providing each robot information whether the
global state is (or is not) valuable. Experiments in a robotic navigation task
with 2 4, and 8 robots, confirm the superior performance of our approach over
prior CTDE methods (e.g., VDN, QMIX).
- Abstract(参考訳): 本稿では,CTDE(Centralized Training and Decentralized Execution)パラダイムにおけるマルチロボットマップレスナビゲーションの問題について検討する。
この問題は、各ロボットがその経路を他のロボットと明示的に共有することなく考慮し、深層強化学習(drl)の非定常問題につながる場合、難しい。
典型的なCTDEアルゴリズムは、共同動作値関数を個別に分解し、協調を好んで分散実行を実現する。
このような因子化には制約(例えば単調性)があり、個々のエージェントが共同行動-値から始めるように訓練されるため、個人における新しい行動の発生を制限する。
対照的に,ctdeでは,エージェントの値ベースの更新にグローバル状態情報を注入する統合状態値を計算するために,集中型状態値ネットワークを用いた新しいアーキテクチャを提案する。
その結果、各モデルは環境全体の状態を考慮して、重量の勾配更新を計算する。
提案手法は,共同状態価値を別々に推定することとしてのデュエルネットワークの考察に従い,サンプル効率を向上させるとともに,各ロボットにグローバル状態が有益かどうか(そうでないか)に関する情報を提供する。
ロボットナビゲーションタスクにおいて,従来のCTDE法(VDN,QMIXなど)に比較して,提案手法の優れた性能を確認した。
関連論文リスト
- Generalizability of Graph Neural Networks for Decentralized Unlabeled Motion Planning [72.86540018081531]
ラベルなしの動作計画では、衝突回避を確保しながら、ロボットのセットを目標の場所に割り当てる。
この問題は、探査、監視、輸送などの応用において、マルチロボットシステムにとって不可欠なビルディングブロックを形成している。
この問題に対処するために、各ロボットは、その400ドルのアネレストロボットと$k$アネレストターゲットの位置のみを知っている分散環境で対処する。
論文 参考訳(メタデータ) (2024-09-29T23:57:25Z) - Attention Graph for Multi-Robot Social Navigation with Deep
Reinforcement Learning [0.0]
深部強化学習(RL)を用いたマルチエージェント社会認識ナビゲーション戦略の学習方法であるMultiSocを提案する。
マルチエージェントディープRLに関する最近の研究から着想を得た本手法は,エージェント相互作用のグラフベース表現を利用して,エンティティ(歩行者とエージェント)の位置と視野を組み合わせる。
提案手法はソーシャルナビゲーションよりも高速に学習し,複数の異種人との群集ナビゲーションに挑戦する上で,効率的なマルチエージェントの暗黙調整を可能にする。
論文 参考訳(メタデータ) (2024-01-31T15:24:13Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - Decentralized Multi-Agent Reinforcement Learning with Global State
Prediction [3.5843971648706296]
非定常性(non-stationarity)は、2つ以上のロボットが個別または共有ポリシーを同時に更新する際に発生する。
我々は、他のエージェントに対するグローバルな知識が欠如していることから、部分的に観測可能なマルコフ決定プロセスとしてこの問題を提起する。
最初は、ロボットはメッセージを交換せず、移動対象のプッシュ&プルを通じて暗黙のコミュニケーションに頼るように訓練される。
第2のアプローチでは、グローバルステート予測(GSP)を導入し、Swarm全体の信念を予測し、将来の状態を予測できるように訓練した。
論文 参考訳(メタデータ) (2023-06-22T14:38:12Z) - Distributed Reinforcement Learning for Robot Teams: A Review [10.92709534981466]
近年のセンサ,アクティベーション,計算の進歩により,マルチロボットシステムへの扉が開きつつある。
コミュニティはモデルフリーのマルチエージェント強化学習を活用して、マルチロボットシステムのための効率的でスケーラブルなコントローラを開発した。
最近の知見:分散MSSは、非定常性や部分観測可能性などの根本的な課題に直面している。
論文 参考訳(メタデータ) (2022-04-07T15:34:19Z) - CTDS: Centralized Teacher with Decentralized Student for Multi-Agent
Reinforcement Learning [114.69155066932046]
この作品は小説を提案している。
教師モデルと学生モデルからなる分散学生(C TDS)フレームワーク。
具体的には、教師モデルは、グローバルな観察で条件付けられた個別のQ値を学ぶことで、チームの報酬を割り当てる。
学生モデルは、部分的な観察を利用して、教師モデルによって推定されるQ値を近似する。
論文 参考訳(メタデータ) (2022-03-16T06:03:14Z) - Value Functions Factorization with Latent State Information Sharing in
Decentralized Multi-Agent Policy Gradients [43.862956745961654]
LSF-SACは、変分推論に基づく情報共有機構を余分な状態情報として特徴付ける新しいフレームワークである。
我々は,StarCraft II マイクロマネジメント課題における LSF-SAC の評価を行った。
論文 参考訳(メタデータ) (2022-01-04T17:05:07Z) - Learning Connectivity for Data Distribution in Robot Teams [96.39864514115136]
グラフニューラルネットワーク(GNN)を用いたアドホックネットワークにおけるデータ分散のためのタスク非依存,分散化,低レイテンシ手法を提案する。
当社のアプローチは、グローバル状態情報に基づいたマルチエージェントアルゴリズムを各ロボットで利用可能にすることで機能させます。
我々は,情報の平均年齢を報酬関数として強化学習を通じて分散gnn通信政策を訓練し,タスク固有の報酬関数と比較してトレーニング安定性が向上することを示す。
論文 参考訳(メタデータ) (2021-03-08T21:48:55Z) - Robot Navigation in a Crowd by Integrating Deep Reinforcement Learning
and Online Planning [8.211771115758381]
これは、群衆の中で時間効率と衝突のない道を移動するモバイルロボットにとって、まだオープンで挑戦的な問題です。
深層強化学習はこの問題に対する有望な解決策である。
グラフに基づく深部強化学習手法SG-DQNを提案する。
私たちのモデルは、ロボットが群衆をよりよく理解し、群衆ナビゲーションタスクで0.99以上の高い成功率を達成するのに役立ちます。
論文 参考訳(メタデータ) (2021-02-26T02:17:13Z) - Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。
深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文 参考訳(メタデータ) (2020-03-19T16:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。