論文の概要: Towards Closing the Sim-to-Real Gap in Collaborative Multi-Robot Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2008.07875v1
- Date: Tue, 18 Aug 2020 11:57:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 21:13:21.078954
- Title: Towards Closing the Sim-to-Real Gap in Collaborative Multi-Robot Deep
Reinforcement Learning
- Title(参考訳): 協調型多ロボット深部強化学習におけるシム・トゥ・リアルギャップの閉鎖に向けて
- Authors: Wenshuai Zhao, Jorge Pe\~na Queralta, Li Qingqing, Tomi Westerlund
- Abstract要約: 分散マルチロボットシステムにおいて,マルチエージェント強化学習が現実とのギャップを埋める方法について分析する。
分散強化学習におけるセンサ,キャリブレーション,精度のミスマッチの効果について紹介する。
異なる種類の摂動と、それらの摂動を経験するエージェントの数の両方が協調学習活動にどのように影響するかについて論じる。
- 参考スコア(独自算出の注目度): 0.06554326244334865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current research directions in deep reinforcement learning include bridging
the simulation-reality gap, improving sample efficiency of experiences in
distributed multi-agent reinforcement learning, together with the development
of robust methods against adversarial agents in distributed learning, among
many others. In this work, we are particularly interested in analyzing how
multi-agent reinforcement learning can bridge the gap to reality in distributed
multi-robot systems where the operation of the different robots is not
necessarily homogeneous. These variations can happen due to sensing mismatches,
inherent errors in terms of calibration of the mechanical joints, or simple
differences in accuracy. While our results are simulation-based, we introduce
the effect of sensing, calibration, and accuracy mismatches in distributed
reinforcement learning with proximal policy optimization (PPO). We discuss on
how both the different types of perturbances and how the number of agents
experiencing those perturbances affect the collaborative learning effort. The
simulations are carried out using a Kuka arm model in the Bullet physics
engine. This is, to the best of our knowledge, the first work exploring the
limitations of PPO in multi-robot systems when considering that different
robots might be exposed to different environments where their sensors or
actuators have induced errors. With the conclusions of this work, we set the
initial point for future work on designing and developing methods to achieve
robust reinforcement learning on the presence of real-world perturbances that
might differ within a multi-robot system.
- Abstract(参考訳): 深層強化学習の現在の研究方向は、シミュレーションと現実のギャップを埋めること、分散マルチエージェント強化学習における経験のサンプル効率の向上、分散学習における敵エージェントに対する堅牢な手法の開発などである。
本研究では,異なるロボットの操作が必ずしも均質ではない分散マルチロボットシステムにおいて,マルチエージェント強化学習が現実へのギャップをいかに橋渡しできるかを分析することに関心を寄せる。
これらのバリエーションは、ミスマッチの感知、機械関節のキャリブレーションの固有の誤り、または精度の単純な違いによって起こりうる。
実験結果はシミュレーションベースであるが,ppo(proximal policy optimization)を用いた分散強化学習におけるセンサ,キャリブレーション,精度ミスマッチの効果について紹介する。
異なる種類の摂動とそれらの摂動を経験するエージェントの数の両方が協調学習にどのように影響するかについて議論する。
シミュレーションはBullet物理エンジンのKukaアームモデルを用いて行われる。
これは、私たちの知る限りでは、複数のロボットがセンサーやアクチュエーターがエラーを誘発する異なる環境に暴露される可能性があるという、マルチロボットシステムにおけるPPOの限界を探求する最初の研究である。
本研究の結末により,マルチロボットシステムにおける実世界ペルタバンスの存在下での強固な強化学習を実現するための手法の設計と開発に関する今後の取り組みの出発点を定式化した。
関連論文リスト
- Unsupervised Learning of Effective Actions in Robotics [0.9374652839580183]
ロボット工学における現在の最先端のアクション表現は、ロボットのアクションに対する適切な効果駆動学習を欠いている。
連続運動空間の離散化と「アクションプロトタイプ」生成のための教師なしアルゴリズムを提案する。
シミュレーションされた階段登上補強学習課題について,本手法の評価を行った。
論文 参考訳(メタデータ) (2024-04-03T13:28:52Z) - DiAReL: Reinforcement Learning with Disturbance Awareness for Robust
Sim2Real Policy Transfer in Robot Control [0.0]
遅延マルコフ決定プロセスは、最近コミットされたアクションの有限時間ウィンドウでエージェントの状態空間を拡大することでマルコフ特性を満たす。
本稿では,遅延した環境下での乱れ増進型マルコフ決定プロセスを導入し,政治強化学習アルゴリズムのトレーニングにおける乱れ推定を取り入れた新しい表現法を提案する。
論文 参考訳(メタデータ) (2023-06-15T10:11:38Z) - Bridging Active Exploration and Uncertainty-Aware Deployment Using
Probabilistic Ensemble Neural Network Dynamics [11.946807588018595]
本稿では,活発な探索と不確実性を考慮した展開を橋渡しするモデルベース強化学習フレームワークを提案する。
探索と展開の対立する2つのタスクは、最先端のサンプリングベースのMPCによって最適化されている。
自動運転車と車輪付きロボットの両方で実験を行い、探索と展開の両方に有望な結果を示します。
論文 参考訳(メタデータ) (2023-05-20T17:20:12Z) - Exploiting Symmetry and Heuristic Demonstrations in Off-policy
Reinforcement Learning for Robotic Manipulation [1.7901837062462316]
本稿では,物理ロボット環境に存在する自然対称性を定義し,組み込むことを目的とする。
提案手法は,産業用アームの2つのポイント・ツー・ポイント・リーチタスクによって,障害物を伴わずに検証される。
提案手法と従来の非政治強化学習アルゴリズムとの比較研究は,アプリケーションにおける学習性能と潜在的価値の優位性を示している。
論文 参考訳(メタデータ) (2023-04-12T11:38:01Z) - Joint Training of Deep Ensembles Fails Due to Learner Collusion [61.557412796012535]
機械学習モデルのアンサンブルは、単一のモデルよりもパフォーマンスを改善する強力な方法として確立されている。
伝統的に、アンサンブルアルゴリズムは、ジョイントパフォーマンスの最適化を目標として、ベースラーナーを独立または逐次訓練する。
アンサンブルの損失を最小化することは、実際にはほとんど適用されないことを示す。
論文 参考訳(メタデータ) (2023-01-26T18:58:07Z) - Revisiting the Adversarial Robustness-Accuracy Tradeoff in Robot
Learning [121.9708998627352]
近年の研究では、現実的なロボット学習の応用において、対人訓練の効果が公平なトレードオフを起こさないことが示されている。
本研究は,ロボット学習におけるロバストネスと精度のトレードオフを再考し,最近のロバストトレーニング手法と理論の進歩により,現実のロボット応用に適した対人トレーニングが可能かどうかを解析する。
論文 参考訳(メタデータ) (2022-04-15T08:12:15Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。
本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。
提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文 参考訳(メタデータ) (2021-07-10T03:49:41Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Risk-Sensitive Sequential Action Control with Multi-Modal Human
Trajectory Forecasting for Safe Crowd-Robot Interaction [55.569050872780224]
本稿では,リスクに敏感な最適制御に基づく安全な群集ロボットインタラクションのためのオンラインフレームワークを提案し,そのリスクをエントロピーリスク尺度でモデル化する。
私たちのモジュラーアプローチは、クラウドとロボットの相互作用を学習ベースの予測とモデルベースの制御に分離します。
シミュレーション研究と実世界の実験により、このフレームワークは、現場にいる50人以上の人間との衝突を避けながら、安全で効率的なナビゲーションを実現することができることが示された。
論文 参考訳(メタデータ) (2020-09-12T02:02:52Z) - Ubiquitous Distributed Deep Reinforcement Learning at the Edge:
Analyzing Byzantine Agents in Discrete Action Spaces [0.06554326244334865]
本稿では,ビザンチンや誤作動剤の存在下で発生する多エージェント分散深層強化学習の課題について論じる。
個別行動の誤りが協調学習活動にどのように影響するかを示す。
分散マルチエージェントトレーニングにおけるアクター・クリティカル(A2C)を活かしたAtariテストベッドを用いたシミュレーション環境で実験を行った。
論文 参考訳(メタデータ) (2020-08-18T11:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。