論文の概要: Whole-Body Control of a Mobile Manipulator using End-to-End
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2003.02637v1
- Date: Tue, 25 Feb 2020 21:21:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 22:13:19.100083
- Title: Whole-Body Control of a Mobile Manipulator using End-to-End
Reinforcement Learning
- Title(参考訳): エンドツーエンド強化学習による移動マニピュレータの全身制御
- Authors: Julien Kindle, Fadri Furrer, Tonci Novkovic, Jen Jen Chung, Roland
Siegwart and Juan Nieto
- Abstract要約: WBC(Whole-Body Control)に対するエンドツーエンド強化学習(RL)アプローチを提案する。
シミュレーションでは,学習したコントローラを最先端のサンプリングベース手法と比較し,全体のミッションタイムを高速化した。
- 参考スコア(独自算出の注目度): 31.150823782805283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mobile manipulation is usually achieved by sequentially executing base and
manipulator movements. This simplification, however, leads to a loss in
efficiency and in some cases a reduction of workspace size. Even though
different methods have been proposed to solve Whole-Body Control (WBC) online,
they are either limited by a kinematic model or do not allow for reactive,
online obstacle avoidance. In order to overcome these drawbacks, in this work,
we propose an end-to-end Reinforcement Learning (RL) approach to WBC. We
compared our learned controller against a state-of-the-art sampling-based
method in simulation and achieved faster overall mission times. In addition, we
validated the learned policy on our mobile manipulator RoyalPanda in
challenging narrow corridor environments.
- Abstract(参考訳): 移動操作は通常、ベースとマニピュレータの動きを順次実行する。
しかし、この単純化は効率の低下と、場合によってはワークスペースサイズの削減につながる。
オンラインで全身制御(wbc)を解決するために異なる方法が提案されているが、キネマティックモデルによって制限されるか、オンラインの障害回避に反応しないかのどちらかである。
これらの欠点を克服するために,本稿では,WBCに対するエンドツーエンド強化学習(RL)アプローチを提案する。
シミュレーションでは,学習したコントローラを最先端のサンプリングベース手法と比較し,全体のミッション時間を短縮した。
さらに,移動マニピュレータRoyalPandaの学習方針を,狭い廊下環境に挑戦する上で検証した。
関連論文リスト
- Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Collision Avoidance and Navigation for a Quadrotor Swarm Using End-to-end Deep Reinforcement Learning [8.864432196281268]
本研究では,障害物のある環境下での四元子群制御のためのエンドツーエンドDRL手法を提案する。
筆者らは, 障害物の多い環境下での性能向上を図るために, 衝突エピソードのカリキュラムと再生バッファを提供する。
我々の研究は、エンドツーエンドDRLで訓練された隣人回避および障害物回避制御ポリシーを学習する可能性を示す最初の研究である。
論文 参考訳(メタデータ) (2023-09-23T06:56:28Z) - Deep Whole-Body Control: Learning a Unified Policy for Manipulation and
Locomotion [25.35885216505385]
装着されたアームは、移動操作タスクへの脚付きロボットの適用性を著しく向上させることができる。
このような手足のマニピュレータのための標準的な階層制御パイプラインは、コントローラを操作と移動のものと分離することである。
我々は、強化学習を用いて、足のマニピュレータの全身制御のための統一的なポリシーを学習する。
論文 参考訳(メタデータ) (2022-10-18T17:59:30Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Real-World Dexterous Object Manipulation based Deep Reinforcement
Learning [3.4493195428573613]
ロボットの制御に深層強化学習を用いる方法を示す。
この枠組みは, 深層強化学習の低サンプリング効率の欠点を低減させる。
我々のアルゴリズムはシミュレーションで訓練され、微調整なしで現実に移行した。
論文 参考訳(メタデータ) (2021-11-22T02:48:05Z) - OSCAR: Data-Driven Operational Space Control for Adaptive and Robust
Robot Manipulation [50.59541802645156]
オペレーショナル・スペース・コントロール(OSC)は、操作のための効果的なタスクスペース・コントローラとして使われてきた。
本稿では,データ駆動型OSCのモデル誤差を補償するOSC for Adaptation and Robustness (OSCAR)を提案する。
本手法は,様々なシミュレーション操作問題に対して評価し,制御器のベースラインの配列よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-10-02T01:21:38Z) - Reinforcement Learning for Robust Parameterized Locomotion Control of
Bipedal Robots [121.42930679076574]
シミュレーションにおけるロコモーションポリシをトレーニングするためのモデルフリー強化学習フレームワークを提案する。
ドメインランダム化は、システムダイナミクスのバリエーションにまたがる堅牢な振る舞いを学ぶためのポリシーを奨励するために使用されます。
本研究では、目標歩行速度、歩行高さ、旋回ヨーなどの多目的歩行行動について示す。
論文 参考訳(メタデータ) (2021-03-26T07:14:01Z) - Collision-Free Flocking with a Dynamic Squad of Fixed-Wing UAVs Using
Deep Reinforcement Learning [2.555094847583209]
深層強化学習(DRL)による分散型リーダ・フォロワリング制御問題に対処する。
我々は,すべてのフォロワーに対して共有制御ポリシーを学習するための新しい強化学習アルゴリズムCACER-IIを提案する。
その結果、可変長系状態を固定長埋め込みベクトルに符号化することができ、学習されたDRLポリシーをフォロワーの数や順序と独立にすることができる。
論文 参考訳(メタデータ) (2021-01-20T11:23:35Z) - Continuous Transition: Improving Sample Efficiency for Continuous
Control Problems via MixUp [119.69304125647785]
本稿では,連続的遷移を構築するための簡潔かつ強力な手法を提案する。
具体的には、連続的な遷移を線形に補間することにより、トレーニングのための新しい遷移を合成することを提案する。
また, 建設過程を自動案内する判別器を開発した。
論文 参考訳(メタデータ) (2020-11-30T01:20:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。