論文の概要: Real-World Humanoid Locomotion with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2303.03381v2
- Date: Thu, 14 Dec 2023 16:11:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 05:04:41.877021
- Title: Real-World Humanoid Locomotion with Reinforcement Learning
- Title(参考訳): 強化学習による実世界ヒューマノイド移動
- Authors: Ilija Radosavovic, Tete Xiao, Bike Zhang, Trevor Darrell, Jitendra
Malik, Koushil Sreenath
- Abstract要約: 実世界におけるヒューマノイド移動に対する完全学習型アプローチを提案する。
コントローラーは様々な屋外の地形の上を歩けるし、外乱に対して頑丈で、状況に応じて適応できる。
- 参考スコア(独自算出の注目度): 92.85934954371099
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humanoid robots that can autonomously operate in diverse environments have
the potential to help address labour shortages in factories, assist elderly at
homes, and colonize new planets. While classical controllers for humanoid
robots have shown impressive results in a number of settings, they are
challenging to generalize and adapt to new environments. Here, we present a
fully learning-based approach for real-world humanoid locomotion. Our
controller is a causal transformer that takes the history of proprioceptive
observations and actions as input and predicts the next action. We hypothesize
that the observation-action history contains useful information about the world
that a powerful transformer model can use to adapt its behavior in-context,
without updating its weights. We train our model with large-scale model-free
reinforcement learning on an ensemble of randomized environments in simulation
and deploy it to the real world zero-shot. Our controller can walk over various
outdoor terrains, is robust to external disturbances, and can adapt in context.
- Abstract(参考訳): 多様な環境で自律的に操作できるヒューマノイドロボットは、工場の労働不足に対処し、高齢者を家庭で支援し、新しい惑星を植民地化する可能性を持っている。
ヒューマノイドロボットの古典的なコントローラーは、多くの設定で印象的な結果を示しているが、新しい環境への一般化と適応は困難である。
そこで本研究では,実世界のヒューマノイド移動に対する完全学習型アプローチを提案する。
我々のコントローラは、先天的な観察と行動の履歴を入力とし、次のアクションを予測する因果変換器である。
我々は、観測行動履歴には、強力なトランスフォーマーモデルが、重みを更新せずに、コンテキスト内の動作に適応できる世界に関する有用な情報が含まれていると仮定する。
我々は,シミュレーションにおけるランダムな環境のアンサンブルをモデルレス大規模強化学習で学習し,実世界のゼロショットに展開する。
我々のコントローラーは様々な屋外の地形を歩けるし、外乱に対して頑丈で、状況に応じて適応できる。
関連論文リスト
- Learning Humanoid Locomotion over Challenging Terrain [84.35038297708485]
本研究では,自然と人為的な地形を横断する視覚障害者の移動に対する学習に基づくアプローチを提案する。
本モデルではまず, 時系列モデルを用いた平地軌道のデータセット上で事前学習を行い, 補強学習を用いて不均一な地形を微調整する。
本研究では, 荒面, 変形面, 傾斜面など, 様々な地形にまたがる実際のヒューマノイドロボットを用いて, モデルを評価する。
論文 参考訳(メタデータ) (2024-10-04T17:57:09Z) - Expressive Whole-Body Control for Humanoid Robots [20.132927075816742]
我々は、人間の動きをできるだけリアルに模倣するために、人間サイズのロボットで全身制御ポリシーを学習する。
シミュレーションとSim2Real転送のトレーニングにより、私たちのポリシーはヒューマノイドロボットを制御して、さまざまなスタイルで歩いたり、人と握手したり、現実世界で人間と踊ったりできる。
論文 参考訳(メタデータ) (2024-02-26T18:09:24Z) - Structured World Models from Human Videos [45.08503470821952]
私たちは、現実世界で、複雑で一般的な行動を直接学習する問題に取り組みます。
そこで本研究では,ロボットが操作スキルを効率よく学習する手法を提案する。
論文 参考訳(メタデータ) (2023-08-21T17:59:32Z) - Affordances from Human Videos as a Versatile Representation for Robotics [31.248842798600606]
我々は、人間がどこでどのように対話するかを推定する視覚的余裕モデルを訓練する。
これらの行動割当の構造は、ロボットが多くの複雑なタスクを直接実行できるようにする。
私たちは、VRBと呼ばれる4つの現実世界環境、10以上のタスクと2つのロボットプラットフォームにおいて、私たちのアプローチの有効性を示します。
論文 参考訳(メタデータ) (2023-04-17T17:59:34Z) - Towards Modeling and Influencing the Dynamics of Human Learning [26.961274302321343]
私たちは、ロボットが持つ影響を理解し、それを活用して人々をよりよく支援し、人間のモデルが現実とより迅速に一致できるようにするための一歩を踏み出します。
我々のキーとなる考え方は、人間の学習を、新しい観察によって人間の内部モデルを進化させる非線形力学系としてモデル化することである。
次に、人間の学習力学モデルをロボット計画問題に組み込むことで、ロボットが人間の学習にどう影響するかを定式化する。
論文 参考訳(メタデータ) (2023-01-02T23:59:45Z) - DexTransfer: Real World Multi-fingered Dexterous Grasping with Minimal
Human Demonstrations [51.87067543670535]
本研究では,少数の人間によるデモンストレーションを行い,見えない物体のポーズを学習するロボット学習システムを提案する。
我々は,物体の点群を入力として捉え,物体を異なる初期ロボット状態から把握するための連続的な動作を予測する,厳密な把握ポリシーを訓練する。
我々のデータセットから学んだポリシーは、シミュレーションと現実世界の両方で見えないオブジェクトのポーズをうまく一般化することができる。
論文 参考訳(メタデータ) (2022-09-28T17:51:49Z) - Learning Quadrupedal Locomotion over Challenging Terrain [68.51539602703662]
足の移動はロボティクスの操作領域を劇的に拡張することができる。
足の移動のための従来のコントローラーは、運動プリミティブと反射の実行を明示的にトリガーする精巧な状態マシンに基づいている。
ここでは、自然環境に挑戦する際の足の移動に対して、徹底的に頑健な制御器を提案する。
論文 参考訳(メタデータ) (2020-10-21T19:11:20Z) - Visual Navigation Among Humans with Optimal Control as a Supervisor [72.5188978268463]
そこで本研究では,学習に基づく知覚とモデルに基づく最適制御を組み合わせることで,人間間をナビゲートする手法を提案する。
私たちのアプローチは、新しいデータ生成ツールであるHumANavによって実現されています。
学習したナビゲーションポリシーは、将来の人間の動きを明示的に予測することなく、人間に予測し、反応できることを実証する。
論文 参考訳(メタデータ) (2020-03-20T16:13:47Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。