論文の概要: Sample-Efficient Multi-Agent Reinforcement Learning with Demonstrations
for Flocking Control
- arxiv url: http://arxiv.org/abs/2209.08351v1
- Date: Sat, 17 Sep 2022 15:24:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 16:59:16.765728
- Title: Sample-Efficient Multi-Agent Reinforcement Learning with Demonstrations
for Flocking Control
- Title(参考訳): フラッキング制御のためのデモによるサンプル効率の良いマルチエージェント強化学習
- Authors: Yunbo Qiu, Yuzhu Zhan, Yue Jin, Jian Wang, Xudong Zhang
- Abstract要約: 浮揚制御は無人航空機や自律水中車両のようなマルチエージェントシステムにおいて重要な問題である。
従来の手法とは対照的に、マルチエージェント強化学習(MARL)はより柔軟に群れ制御の問題を解く。
本稿では,MARL (PwD-MARL) の実証による事前学習手法を提案する。
- 参考スコア(独自算出の注目度): 6.398557794102739
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Flocking control is a significant problem in multi-agent systems such as
multi-agent unmanned aerial vehicles and multi-agent autonomous underwater
vehicles, which enhances the cooperativity and safety of agents. In contrast to
traditional methods, multi-agent reinforcement learning (MARL) solves the
problem of flocking control more flexibly. However, methods based on MARL
suffer from sample inefficiency, since they require a huge number of
experiences to be collected from interactions between agents and the
environment. We propose a novel method Pretraining with Demonstrations for MARL
(PwD-MARL), which can utilize non-expert demonstrations collected in advance
with traditional methods to pretrain agents. During the process of pretraining,
agents learn policies from demonstrations by MARL and behavior cloning
simultaneously, and are prevented from overfitting demonstrations. By
pretraining with non-expert demonstrations, PwD-MARL improves sample efficiency
in the process of online MARL with a warm start. Experiments show that PwD-MARL
improves sample efficiency and policy performance in the problem of flocking
control, even with bad or few demonstrations.
- Abstract(参考訳): 浮揚制御は、エージェントの協調性と安全性を高めるマルチエージェント無人航空機やマルチエージェント自律水中車両のようなマルチエージェントシステムにおいて重要な問題である。
従来の手法とは対照的に、マルチエージェント強化学習(MARL)はより柔軟に群れ制御の問題を解く。
しかしながら,marlに基づく手法では,エージェントと環境との相互作用から大量の経験を収集する必要があるため,サンプル非効率に苦しむ。
そこで本研究では,従来の方法と並行して収集した非熟練のデモンストレーションを活用できるmarl (pwd-marl) 用プリトレーニング手法を提案する。
事前訓練の過程で、エージェントはMARLによるデモンストレーションからポリシーを学習し、同時に行動クローニングを行い、デモの過度な適合を防止する。
PwD-MARLは、非専門家によるデモンストレーションで事前訓練することで、オンラインMARLのプロセスにおけるサンプル効率を温かいスタートで改善する。
実験の結果、PwD-MARLは、悪い実演や少ない演目でも、群れ制御の問題において、サンプル効率と政策性能を改善することが示された。
関連論文リスト
- Beyond Joint Demonstrations: Personalized Expert Guidance for Efficient Multi-Agent Reinforcement Learning [54.40927310957792]
異種チーム内の各エージェントを個別にカスタマイズした、個人化された専門家によるデモンストレーションという新しい概念を導入する。
これらのデモンストレーションは、単独エージェントの行動と、各エージェントが協調的な要素を含まない個人的目標を達成する方法にのみ関係している。
本稿では、個人化された専門家によるデモンストレーションをガイダンスとして選択的に活用し、エージェントが協力することを学ぶためのアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-13T20:11:20Z) - MA2CL:Masked Attentive Contrastive Learning for Multi-Agent
Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。
MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。
提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2023-06-03T05:32:19Z) - MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
拡散モデル(DM)は、最近オフライン強化学習を含む様々なシナリオで大きな成功を収めた。
この問題に対処する新しい生成型マルチエージェント学習フレームワークであるMADiffを提案する。
本実験は,マルチエージェント学習タスクにおけるベースラインアルゴリズムと比較して,MADiffの優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-27T02:14:09Z) - DEFENDER: DTW-Based Episode Filtering Using Demonstrations for Enhancing
RL Safety [0.0]
本稿では,学習中のRLエージェントの安全性を向上させるために,安全で安全性の低いデモセットを活用するタスク非依存手法を提案する。
提案手法はOpenAI GymのMujocoベンチマークと2つの最先端RLアルゴリズムから評価する。
論文 参考訳(メタデータ) (2023-05-08T14:23:27Z) - RPM: Generalizable Behaviors for Multi-Agent Reinforcement Learning [90.43925357575543]
本稿では,MARLポリシーを総合性良く訓練するための多様なマルチエージェントトラジェクトリを収集するために,ランク付けされたポリシーメモリ(RPM)を提案する。
RPMにより、マルチエージェントの一般化評価シナリオと完全なタスクにおいて、MARLエージェントが未確認エージェントと対話することが可能になり、平均402%のパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2022-10-18T07:32:43Z) - Efficient Reinforcement Learning from Demonstration Using Local Ensemble
and Reparameterization with Split and Merge of Expert Policies [7.126594773940676]
準最適デモから学んだ政策は、不正または非ローカルな行動決定をしたエージェントを誤解させる可能性がある。
そこで本稿では,LEARN-SAM (Local Ensemble and Re parameterization with Split and Merge of Expert Policy) という手法を提案する。
低次元から高次元の複雑な連続制御問題に対する6つの実験において、LEARN-SAM法の優位性と、その頑健さを実証的品質と疎性で示す。
論文 参考訳(メタデータ) (2022-05-23T03:36:24Z) - Relative Distributed Formation and Obstacle Avoidance with Multi-agent
Reinforcement Learning [20.401609420707867]
マルチエージェント強化学習(MARL)に基づく分散生成・障害物回避手法を提案する。
提案手法は, 障害物回避における生成誤差, 生成収束率, オンパー成功率に関して, ベースラインと比較して高い性能を実現する。
論文 参考訳(メタデータ) (2021-11-14T13:02:45Z) - Scalable Evaluation of Multi-Agent Reinforcement Learning with Melting
Pot [71.28884625011987]
Melting PotはMARL評価スイートで、強化学習を使用して、新しいテストシナリオを作成するのに必要な人的労力を削減する。
幅広い研究トピックをカバーする80以上のユニークなテストシナリオを作成しました。
これらのテストシナリオを標準的なMARLトレーニングアルゴリズムに適用し、Melting Potがトレーニングのパフォーマンスだけでは明らかでない弱点をいかに明らかにするかを実証する。
論文 参考訳(メタデータ) (2021-07-14T17:22:14Z) - SAFARI: Safe and Active Robot Imitation Learning with Imagination [16.967930721746676]
SAFARIは、新しい能動的学習制御アルゴリズムである。
これにより、エージェントは、これらのアウト・オブ・ディストリビューションの状況が満たされたときに、さらに人間のデモを要求することができる。
本手法により, エージェントが自律的に障害を迅速かつ安全に予測できることを示す。
論文 参考訳(メタデータ) (2020-11-18T23:43:59Z) - Scalable Multi-Agent Inverse Reinforcement Learning via
Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。
本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-24T20:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。