論文の概要: Learning a Decentralized Multi-arm Motion Planner
- arxiv url: http://arxiv.org/abs/2011.02608v1
- Date: Thu, 5 Nov 2020 01:47:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 11:11:42.992594
- Title: Learning a Decentralized Multi-arm Motion Planner
- Title(参考訳): 分散マルチアームモーションプランナーの学習
- Authors: Huy Ha, Jingxi Xu, Shuran Song
- Abstract要約: チームサイズでスケーラブルでフレキシブルなクローズドループマルチアームモーションプランナを提示する。
分散されたポリシーは、マルチアームシステム内の1つのロボットアームを制御するために訓練され、ターゲットのエンドエフェクターのポーズに到達する。
結果として得られるポリシはサブラインでスケールし、チームサイズが可変なマルチアームシステムにデプロイできる。
- 参考スコア(独自算出の注目度): 15.418884994244996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a closed-loop multi-arm motion planner that is scalable and
flexible with team size. Traditional multi-arm robot systems have relied on
centralized motion planners, whose runtimes often scale exponentially with team
size, and thus, fail to handle dynamic environments with open-loop control. In
this paper, we tackle this problem with multi-agent reinforcement learning,
where a decentralized policy is trained to control one robot arm in the
multi-arm system to reach its target end-effector pose given observations of
its workspace state and target end-effector pose. The policy is trained using
Soft Actor-Critic with expert demonstrations from a sampling-based motion
planning algorithm (i.e., BiRRT). By leveraging classical planning algorithms,
we can improve the learning efficiency of the reinforcement learning algorithm
while retaining the fast inference time of neural networks. The resulting
policy scales sub-linearly and can be deployed on multi-arm systems with
variable team sizes. Thanks to the closed-loop and decentralized formulation,
our approach generalizes to 5-10 multi-arm systems and dynamic moving targets
(>90% success rate for a 10-arm system), despite being trained on only 1-4 arm
planning tasks with static targets. Code and data links can be found at
https://multiarm.cs.columbia.edu.
- Abstract(参考訳): 我々は,チームサイズに合わせてスケーラブルで柔軟性のあるクローズドループのマルチアームモーションプランナーを提案する。
従来のマルチアームロボットシステムは集中型モーションプランナーに依存しており、ランタイムはチームサイズと指数関数的にスケールするため、オープンループ制御による動的環境の処理に失敗することが多い。
本稿では,マルチエージェント強化学習において,マルチアームシステム内の1つのロボットアームを個別に制御し,ワークスペース状態とターゲットエンドエフェクタのポーズを与えられた場合の目標エンドエフェクタに到達するための分散型ポリシーを訓練する。
この方針はSoft Actor-Criticを用いて訓練され、サンプリングベースのモーションプランニングアルゴリズム(BiRRT)から専門家によるデモンストレーションが行われる。
従来の計画アルゴリズムを利用することで、ニューラルネットワークの高速推論時間を維持しながら強化学習アルゴリズムの学習効率を向上させることができる。
結果のポリシはサブラインでスケールされ,チームサイズが可変なマルチアームシステムにデプロイされる。
クローズドループと分散化された定式化により,静的な目標を持つ1~4個のアーム計画タスクのみを訓練しながら,5~10個のマルチアームシステムと動的移動目標(>90%の成功率)に一般化した。
コードとデータリンクはhttps://multiarm.cs.columbia.eduにある。
関連論文リスト
- Generalizability of Graph Neural Networks for Decentralized Unlabeled Motion Planning [72.86540018081531]
ラベルなしの動作計画では、衝突回避を確保しながら、ロボットのセットを目標の場所に割り当てる。
この問題は、探査、監視、輸送などの応用において、マルチロボットシステムにとって不可欠なビルディングブロックを形成している。
この問題に対処するために、各ロボットは、その400ドルのアネレストロボットと$k$アネレストターゲットの位置のみを知っている分散環境で対処する。
論文 参考訳(メタデータ) (2024-09-29T23:57:25Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - SABER: Data-Driven Motion Planner for Autonomously Navigating
Heterogeneous Robots [112.2491765424719]
我々は、データ駆動型アプローチを用いて、異種ロボットチームをグローバルな目標に向けてナビゲートする、エンドツーエンドのオンラインモーションプランニングフレームワークを提案する。
モデル予測制御(SMPC)を用いて,ロボット力学を満たす制御入力を計算し,障害物回避時の不確実性を考慮した。
リカレントニューラルネットワークは、SMPC有限時間地平線解における将来の状態の不確かさを素早く推定するために用いられる。
ディープQ学習エージェントがハイレベルパスプランナーとして機能し、SMPCにロボットを望ましいグローバルな目標に向けて移動させる目標位置を提供する。
論文 参考訳(メタデータ) (2021-08-03T02:56:21Z) - Graph Neural Networks for Decentralized Multi-Robot Submodular Action
Selection [101.38634057635373]
ロボットがチームサブモジュールの目的を最大化するために共同で行動を選択する必要があるアプリケーションに焦点を当てる。
分散通信によるサブモジュール化に向けた汎用学習アーキテクチャを提案する。
大規模ロボットネットワークによるアクティブターゲットカバレッジのシナリオにおいて、GNNベースの学習アプローチのパフォーマンスを実証します。
論文 参考訳(メタデータ) (2021-05-18T15:32:07Z) - Learning Multi-Arm Manipulation Through Collaborative Teleoperation [63.35924708783826]
模倣学習(il)はロボットに操作タスクを実行するための強力なパラダイムである。
多くの現実世界のタスクは、重い物体を持ち上げる、デスクを組み立てるなど、複数のアームを必要とする。
複数のリモートユーザが同時にロボットアームを遠隔操作できるマルチユーザデータ収集プラットフォームであるMulti-Arm RoboTurk(MART)を紹介した。
論文 参考訳(メタデータ) (2020-12-12T05:43:43Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - Decentralized Motion Planning for Multi-Robot Navigation using Deep
Reinforcement Learning [0.41998444721319217]
本研究は、深層強化学習を用いたマルチロボットナビゲーションの課題に対処するための分散型モーションプランニングフレームワークを提案する。
共通かつ共有的な政策学習による分散的な行動計画の概念が採用され、このアプローチの堅牢なトレーニングとテストが可能となった。
論文 参考訳(メタデータ) (2020-11-11T07:35:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。