論文の概要: MAMBPO: Sample-efficient multi-robot reinforcement learning using
learned world models
- arxiv url: http://arxiv.org/abs/2103.03662v1
- Date: Fri, 5 Mar 2021 13:37:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-08 14:41:07.592113
- Title: MAMBPO: Sample-efficient multi-robot reinforcement learning using
learned world models
- Title(参考訳): MAMBPO:学習世界モデルを用いたサンプル効率多ボット強化学習
- Authors: Dani\"el Willemsen, Mario Coppola and Guido C.H.E. de Croon
- Abstract要約: マルチロボットシステムは、少数の試験で行動を学ぶ強化学習(RL)アルゴリズムの恩恵を受けることができます。
マルチエージェントモデルベースポリシー最適化(MAMBPO)という新しいマルチエージェントモデルベースRLアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 4.84279798426797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-robot systems can benefit from reinforcement learning (RL) algorithms
that learn behaviours in a small number of trials, a property known as sample
efficiency. This research thus investigates the use of learned world models to
improve sample efficiency. We present a novel multi-agent model-based RL
algorithm: Multi-Agent Model-Based Policy Optimization (MAMBPO), utilizing the
Centralized Learning for Decentralized Execution (CLDE) framework. CLDE
algorithms allow a group of agents to act in a fully decentralized manner after
training. This is a desirable property for many systems comprising of multiple
robots. MAMBPO uses a learned world model to improve sample efficiency compared
to model-free Multi-Agent Soft Actor-Critic (MASAC). We demonstrate this on two
simulated multi-robot tasks, where MAMBPO achieves a similar performance to
MASAC, but requires far fewer samples to do so. Through this, we take an
important step towards making real-life learning for multi-robot systems
possible.
- Abstract(参考訳): マルチロボットシステムは、サンプル効率として知られる少数の試験で行動を学習する強化学習(RL)アルゴリズムの恩恵を受けることができます。
そこで本研究では,学習世界モデルを用いたサンプル効率の向上について検討する。
本稿では,分散実行(clde)フレームワークのための集中型学習を利用するマルチエージェントモデルベースrlアルゴリズム,マルチエージェントモデルベースポリシー最適化(mambpo)を提案する。
CLDEアルゴリズムにより、エージェントのグループは訓練後に完全に分散された方法で行動することができる。
これは複数のロボットからなる多くのシステムにとって望ましい特性である。
MAMBPOは、学習された世界モデルを使用して、モデルフリーのマルチエージェントソフトアクタークリティカル(MASAC)と比較してサンプル効率を向上させます。
MAMBPOはMAASACと同じような性能を達成しているが、それを行うにはサンプルがはるかに少ない2つのシミュレーションされたマルチロボットタスクでこれを実証する。
これにより、マルチロボットシステムの実生活学習を実現するための重要な一歩を踏み出します。
関連論文リスト
- Decentralized Transformers with Centralized Aggregation are Sample-Efficient Multi-Agent World Models [106.94827590977337]
本稿では,分散化された局所力学を拡張性のために学習するマルチエージェントRL(MARL)の新たな世界モデルを提案する。
また、集中表現アグリゲーションを可能にする効果的なソリューションとしてPerceiver Transformerを導入する。
Starcraft Multi-Agent Challenge (SMAC) の結果は、サンプル効率と全体的な性能の両方において、強力なモデルフリーアプローチと既存のモデルベース手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-06-22T12:40:03Z) - Efficient Multi-agent Reinforcement Learning by Planning [33.51282615335009]
マルチエージェント強化学習(MARL)アルゴリズムは、大規模意思決定タスクの解決において、目覚ましいブレークスルーを達成している。
既存のMARLアルゴリズムの多くはモデルフリーであり、サンプル効率を制限し、より困難なシナリオでの適用を妨げている。
政策探索のための集中型モデルとモンテカルロ木探索(MCTS)を組み合わせたMAZeroアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-20T04:36:02Z) - Active Exploration in Bayesian Model-based Reinforcement Learning for Robot Manipulation [8.940998315746684]
ロボットアームのエンドタスクに対するモデルベース強化学習(RL)アプローチを提案する。
我々はベイズニューラルネットワークモデルを用いて、探索中に動的モデルに符号化された信念と情報の両方を確率論的に表現する。
実験により,ベイズモデルに基づくRL手法の利点が示された。
論文 参考訳(メタデータ) (2024-04-02T11:44:37Z) - Physics-informed reinforcement learning via probabilistic co-adjustment
functions [3.6787556334630334]
両手法の利点を組み合わせた新しい手法として,コクリグ調整 (CKA) とリッジ回帰調整 (RRA) を導入する。
本手法は,GPプリエントと統合した自己回帰AR1コクリグモデルに基づく。
論文 参考訳(メタデータ) (2023-09-11T12:10:19Z) - SAM-RL: Sensing-Aware Model-Based Reinforcement Learning via
Differentiable Physics-Based Simulation and Rendering [49.78647219715034]
本稿では,SAM-RL と呼ばれる感性認識モデルに基づく強化学習システムを提案する。
SAM-RLは、センサーを意識した学習パイプラインによって、ロボットがタスクプロセスを監視するための情報的視点を選択することを可能にする。
我々は,ロボット組立,ツール操作,変形可能なオブジェクト操作という3つの操作タスクを達成するための実世界の実験に,我々のフレームワークを適用した。
論文 参考訳(メタデータ) (2022-10-27T05:30:43Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - MALib: A Parallel Framework for Population-based Multi-agent
Reinforcement Learning [61.28547338576706]
人口ベースマルチエージェント強化学習(PB-MARL)は、強化学習(RL)アルゴリズムでネストした一連の手法を指す。
PB-MARLのためのスケーラブルで効率的な計算フレームワークMALibを提案する。
論文 参考訳(メタデータ) (2021-06-05T03:27:08Z) - Energy-Efficient and Federated Meta-Learning via Projected Stochastic
Gradient Ascent [79.58680275615752]
エネルギー効率のよいメタラーニングフレームワークを提案する。
各タスクは別々のエージェントによって所有されていると仮定するため、メタモデルをトレーニングするために限られたタスクが使用される。
論文 参考訳(メタデータ) (2021-05-31T08:15:44Z) - Fast Online Adaptation in Robotics through Meta-Learning Embeddings of
Simulated Priors [3.4376560669160385]
現実の世界では、ロボットはモーターの故障から岩の多い地形で自分自身を見つけるまで、あらゆる状況に遭遇するかもしれない。
FAMLEにより、ロボットはベースラインよりもはるかに少ない時間で、新たな損傷に適応できることを示す。
論文 参考訳(メタデータ) (2020-03-10T12:37:52Z) - Ready Policy One: World Building Through Active Learning [35.358315617358976]
本稿では,モデルに基づく強化学習を積極的学習問題とみなすフレームワークであるReady Policy One(RP1)を紹介する。
RP1は、最適化中に重要な適応を行うハイブリッド目的関数を利用することで、これを実現する。
本手法を各種連続制御タスクにおいて厳密に評価し,既存手法に比べて統計的に有意な向上を示した。
論文 参考訳(メタデータ) (2020-02-07T09:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。