論文の概要: Learning Bipedal Walking for Humanoids with Current Feedback
- arxiv url: http://arxiv.org/abs/2303.03724v2
- Date: Mon, 7 Aug 2023 05:52:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 23:49:20.346573
- Title: Learning Bipedal Walking for Humanoids with Current Feedback
- Title(参考訳): 電流フィードバックによるヒューマノイドの2足歩行学習
- Authors: Rohan Pratap Singh, Zhaoming Xie, Pierre Gergondet, Fumio Kanehiro
- Abstract要約: アクチュエータレベルでの不正確なトルクトラッキングから生じるヒューマノイドロボットのシム2リアルギャップ問題を克服するためのアプローチを提案する。
提案手法は、実際のHRP-5Pヒューマノイドロボットに展開して二足歩行を実現するシミュレーションにおいて、一貫したエンドツーエンドのポリシーをトレーニングする。
- 参考スコア(独自算出の注目度): 5.429166905724048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in deep reinforcement learning (RL) based techniques combined
with training in simulation have offered a new approach to developing robust
controllers for legged robots. However, the application of such approaches to
real hardware has largely been limited to quadrupedal robots with direct-drive
actuators and light-weight bipedal robots with low gear-ratio transmission
systems. Application to real, life-sized humanoid robots has been less common
arguably due to a large sim2real gap. In this paper, we present an approach for
effectively overcoming the sim2real gap issue for humanoid robots arising from
inaccurate torque-tracking at the actuator level. Our key idea is to utilize
the current feedback from the actuators on the real robot, after training the
policy in a simulation environment artificially degraded with poor
torque-tracking. Our approach successfully trains a unified, end-to-end policy
in simulation that can be deployed on a real HRP-5P humanoid robot to achieve
bipedal locomotion. Through ablations, we also show that a feedforward policy
architecture combined with targeted dynamics randomization is sufficient for
zero-shot sim2real success, thus eliminating the need for computationally
expensive, memory-based network architectures. Finally, we validate the
robustness of the proposed RL policy by comparing its performance against a
conventional model-based controller for walking on uneven terrain with the real
robot.
- Abstract(参考訳): 深層強化学習(rl)技術とシミュレーションのトレーニングを組み合わせた最近の進歩は、脚付きロボットのためのロバストなコントローラの開発に新たなアプローチを提供した。
しかし、実際のハードウェアへのそのようなアプローチの適用は、直接駆動アクチュエータを備えた四足歩行ロボットと低速変速装置を備えた軽量二足歩行ロボットに限られている。
実物大のヒューマノイドロボットへの応用は、大きなsim2realのギャップのため、明らかに一般的ではない。
本稿では,アクチュエータレベルでの不正確なトルク追跡から発生するヒューマノイドロボットのsim2現実的ギャップ問題を効果的に克服する手法を提案する。
本研究の目的は, 実ロボットのアクチュエータからの電流フィードバックを, トルク追跡の貧弱さで人工的に劣化したシミュレーション環境において活用することである。
提案手法は、実際のHRP-5Pヒューマノイドロボットに展開して二足歩行を実現するシミュレーションにおいて、一貫したエンドツーエンドのポリシーをトレーニングする。
また,目的とする動的ランダム化とフィードフォワードポリシアーキテクチャを組み合わせることで,ゼロショットのシム2リアルな成功を達成でき,計算コストのかかるメモリベースのネットワークアーキテクチャの必要性を排除できることを示す。
最後に,提案するrlポリシのロバスト性を検証するために,従来の不均一な地形を歩くためのモデルベースコントローラと実際のロボットとの比較を行った。
関連論文リスト
- Learning to navigate efficiently and precisely in real environments [14.52507964172957]
Embodied AIの文献は、HabitatやAI-Thorといったシミュレータで訓練されたエンドツーエンドエージェントに焦点を当てている。
本研究では,sim2realのギャップを最小限に抑えたシミュレーションにおけるエージェントのエンドツーエンドトレーニングについて検討する。
論文 参考訳(メタデータ) (2024-01-25T17:50:05Z) - Towards Transferring Tactile-based Continuous Force Control Policies
from Simulation to Robot [19.789369416528604]
グリップフォースコントロールは、物体に作用する力の量を制限することによって、物体を安全に操作することを目的としている。
以前の作品では、手動制御器、モデルベースのアプローチ、あるいはsim-to-realトランスファーを示さなかった。
シミュレーションで訓練されたモデルなしの深層強化学習手法を提案し,さらに微調整を行わずにロボットに移行した。
論文 参考訳(メタデータ) (2023-11-13T11:29:06Z) - Human-Robot Skill Transfer with Enhanced Compliance via Dynamic Movement
Primitives [1.7901837062462316]
本研究では,動的運動プリミティブ(Dynamic Movement Primitives)フレームワークにおいて,人間の実演から動的特徴を抽出し,パラメータを自動チューニングする体系的手法を提案する。
本手法は,LfDとRLの両方に追従するロボット軌道を再現するために,人間の動的特徴を抽出するための実際のロボット装置に実装した。
論文 参考訳(メタデータ) (2023-04-12T08:48:28Z) - Learning Human-to-Robot Handovers from Point Clouds [63.18127198174958]
視覚に基づく人間ロボットハンドオーバの制御ポリシーを学習する最初のフレームワークを提案する。
シミュレーションベンチマーク,sim-to-sim転送,sim-to-real転送において,ベースラインよりも大きな性能向上を示した。
論文 参考訳(メタデータ) (2023-03-30T17:58:36Z) - Obstacle Avoidance for Robotic Manipulator in Joint Space via Improved
Proximal Policy Optimization [6.067589886362815]
本稿では,6-DoFマニピュレータのタスク空間から関節空間にマップするために,改良されたPPOアルゴリズムを用いて深層ニューラルネットワークを訓練する。
実ロボットでそのようなタスクを訓練するのは時間を要するので、モデルを訓練するためのシミュレーション環境を開発する。
実験結果から,ロボットは非構造環境下で1つの目標をトラッキングしたり,複数の目標に到達することができた。
論文 参考訳(メタデータ) (2022-10-03T10:21:57Z) - Active Predicting Coding: Brain-Inspired Reinforcement Learning for
Sparse Reward Robotic Control Problems [79.07468367923619]
ニューラルジェネレーティブ・コーディング(NGC)の神経認知計算フレームワークによるロボット制御へのバックプロパゲーションフリーアプローチを提案する。
我々は、スパース報酬から動的オンライン学習を容易にする強力な予測符号化/処理回路から完全に構築されたエージェントを設計する。
提案するActPCエージェントは,スパース(外部)報酬信号に対して良好に動作し,複数の強力なバックプロップベースのRLアプローチと競合し,性能が優れていることを示す。
論文 参考訳(メタデータ) (2022-09-19T16:49:32Z) - GenLoco: Generalized Locomotion Controllers for Quadrupedal Robots [87.32145104894754]
四足歩行ロボットのための汎用ロコモーション(GenLoco)コントローラを訓練するためのフレームワークを提案する。
本フレームワークは,多種多様な四足歩行ロボットに展開可能な汎用ロコモーションコントローラを合成する。
我々のモデルは、より一般的な制御戦略を取得し、新しいシミュレーションロボットや実世界のロボットに直接移行できることを示す。
論文 参考訳(メタデータ) (2022-09-12T15:14:32Z) - REvolveR: Continuous Evolutionary Models for Robot-to-robot Policy
Transfer [57.045140028275036]
本研究では,運動学や形態学など,異なるパラメータを持つ2つの異なるロボット間でポリシーを伝達する問題を考察する。
模倣学習手法を含む動作や状態遷移の分布を一致させることで、新しいポリシーを訓練する既存のアプローチは、最適な動作や/または状態分布が異なるロボットでミスマッチしているために失敗する。
本稿では,物理シミュレータに実装されたロボット政策伝達に連続的進化モデルを用いることで,$RevolveR$という新しい手法を提案する。
論文 参考訳(メタデータ) (2022-02-10T18:50:25Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z) - Robot Learning from Randomized Simulations: A Review [59.992761565399185]
ディープラーニングがロボティクス研究のパラダイムシフトを引き起こし、大量のデータを必要とする方法が好まれている。
最先端のアプローチは、データ生成が高速かつ安価であるシミュレーションで学ぶ。
本稿では,ランダム化シミュレーションから学習する手法である「領域ランダム化」に焦点をあてる。
論文 参考訳(メタデータ) (2021-11-01T13:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。