論文の概要: Hierarchical World Models as Visual Whole-Body Humanoid Controllers
- arxiv url: http://arxiv.org/abs/2405.18418v2
- Date: Fri, 31 May 2024 17:03:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 19:03:44.654372
- Title: Hierarchical World Models as Visual Whole-Body Humanoid Controllers
- Title(参考訳): 視覚的全身型ヒューマノイド制御系としての階層的世界モデル
- Authors: Nicklas Hansen, Jyothir S V, Vlad Sobal, Yann LeCun, Xiaolong Wang, Hao Su,
- Abstract要約: ヒューマノイドの全身制御は、この問題の高次元の性質と二足歩行形態の固有の不安定性のために困難である。
本稿では,ハイレベルエージェントが実行すべき低レベルエージェントの視覚的観察に基づいてコマンドを生成する階層的世界モデルを提案する。
提案手法は, 56-DoFヒューマノイドを模擬した8つのタスクにおいて, ヒトに広く好まれる動作を合成しながら, 高い性能の制御ポリシーを生成する。
- 参考スコア(独自算出の注目度): 44.67878600054106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Whole-body control for humanoids is challenging due to the high-dimensional nature of the problem, coupled with the inherent instability of a bipedal morphology. Learning from visual observations further exacerbates this difficulty. In this work, we explore highly data-driven approaches to visual whole-body humanoid control based on reinforcement learning, without any simplifying assumptions, reward design, or skill primitives. Specifically, we propose a hierarchical world model in which a high-level agent generates commands based on visual observations for a low-level agent to execute, both of which are trained with rewards. Our approach produces highly performant control policies in 8 tasks with a simulated 56-DoF humanoid, while synthesizing motions that are broadly preferred by humans. Code and videos: https://nicklashansen.com/rlpuppeteer
- Abstract(参考訳): ヒューマノイドの全身制御は、この問題の高次元的な性質と、二足歩行形態の固有の不安定性により困難である。
視覚的な観察から学ぶことで、この困難はさらに悪化する。
本研究では,強化学習に基づく視覚的全身ヒューマノイド制御に対するデータ駆動型アプローチを,仮定や報酬設計,スキルプリミティブを単純化することなく検討する。
具体的には、ハイレベルエージェントが実行すべき低レベルエージェントの視覚的観察に基づいてコマンドを生成する階層的世界モデルを提案する。
提案手法は, 56-DoFヒューマノイドを模擬した8つのタスクにおいて, ヒトに広く好まれる動作を合成しながら, 高い性能の制御ポリシーを生成する。
コードとビデオ:https://nicklashansen.com/rlpuppeteer
関連論文リスト
- Aligning Machine and Human Visual Representations across Abstraction Levels [42.86478924838503]
深層ニューラルネットワークは、視覚タスクにおける人間の振る舞いのモデルなど、幅広いアプリケーションで成功している。
しかしながら、ニューラルネットワークのトレーニングと人間の学習は基本的な方法で異なり、ニューラルネットワークは人間のように堅牢に一般化できないことが多い。
人間の概念的知識は、きめ細かいものから粗いものまで階層的に構成されているが、モデル表現は、これらの抽象レベルをすべて正確に捉えているわけではない。
このミスアライメントに対処するために、私たちはまず、人間の判断を模倣するために教師モデルを訓練し、その表現から事前訓練された状態に人間のような構造を移す。
論文 参考訳(メタデータ) (2024-09-10T13:41:08Z) - Advancing Humanoid Locomotion: Mastering Challenging Terrains with Denoising World Model Learning [11.648198428063415]
本稿では,ヒューマノイド移動制御のためのエンドツーエンド強化学習フレームワークであるDenoising World Model Learning (DWL)を紹介する。
DWLは、野生の雪や傾斜した土地、上下の階段、非常に不均一な地形など、現実世界の挑戦的な地形をマスターする世界初のヒューマノイドロボットを実証している。
論文 参考訳(メタデータ) (2024-08-26T17:59:03Z) - Dreamitate: Real-World Visuomotor Policy Learning via Video Generation [49.03287909942888]
本研究では,与えられたタスクの人間による実演の映像拡散モデルを微調整するビジュモータポリシー学習フレームワークを提案する。
我々は,新しいシーンの画像に条件付きタスクの実行例を生成し,この合成された実行を直接使用してロボットを制御する。
論文 参考訳(メタデータ) (2024-06-24T17:59:45Z) - HumanPlus: Humanoid Shadowing and Imitation from Humans [82.47551890765202]
ヒューマノイドが人間のデータから動きや自律的なスキルを学ぶためのフルスタックシステムを導入する。
まず、既存の40時間動作データセットを用いて、強化学習によるシミュレーションの低レベルポリシーを訓練する。
次に、自己中心型視覚を用いてスキルポリシーを訓練し、ヒューマノイドが自律的に異なるタスクを完了できるようにする。
論文 参考訳(メタデータ) (2024-06-15T00:41:34Z) - HINT: Learning Complete Human Neural Representations from Limited Viewpoints [69.76947323932107]
我々は、限られた視野角から詳細な人間のモデルを学習できるNeRFベースのアルゴリズムを提案する。
その結果,数個の視角からでも完全な人間の再構築が可能となり,性能は15%以上向上した。
論文 参考訳(メタデータ) (2024-05-30T05:43:09Z) - H-GAP: Humanoid Control with a Generalist Planner [45.50995825122686]
ヒューマノイド一般自動符号化プランナー(Humanoid Generalist Autoencoding Planner、H-GAP)は、人間のモーションキャプチャーデータから派生したヒューマノイド軌道に基づいて訓練された生成モデルである。
56自由度ヒューマノイドでは、H-GAPが幅広い運動行動の表現と生成を学習していることが実証的に証明されている。
また,H-GAPのスケーリング特性に関する実証的研究を行い,データの追加による性能向上の可能性を示した。
論文 参考訳(メタデータ) (2023-12-05T11:40:24Z) - Generative Adversarial Neuroevolution for Control Behaviour Imitation [3.04585143845864]
本稿では,一般的なシミュレーション環境における行動模倣にディープ・ニューロエボリューションが有効かどうかを考察する。
我々は、単純な共進化的逆数生成フレームワークを導入し、標準の深い再帰ネットワークを進化させることにより、その能力を評価する。
全てのタスクにおいて、事前訓練されたエージェントが獲得したものよりも高いスコアを達成できる最後のエリートアクターが見つかる。
論文 参考訳(メタデータ) (2023-04-03T16:33:22Z) - Real-World Humanoid Locomotion with Reinforcement Learning [92.85934954371099]
実世界におけるヒューマノイド移動に対する完全学習型アプローチを提案する。
コントローラーは様々な屋外の地形の上を歩けるし、外乱に対して頑丈で、状況に応じて適応できる。
論文 参考訳(メタデータ) (2023-03-06T18:59:09Z) - On the Emergence of Whole-body Strategies from Humanoid Robot
Push-recovery Learning [32.070068456106895]
シミュレーション環境における汎用的で堅牢なヒューマノイドプッシュリカバリポリシーのトレーニングに,モデルフリーな深層強化学習を適用する。
本手法は高次元全体ヒューマノイド制御を目標とし,iCubヒューマノイド上で検証を行った。
論文 参考訳(メタデータ) (2021-04-29T17:49:20Z) - Visual Navigation Among Humans with Optimal Control as a Supervisor [72.5188978268463]
そこで本研究では,学習に基づく知覚とモデルに基づく最適制御を組み合わせることで,人間間をナビゲートする手法を提案する。
私たちのアプローチは、新しいデータ生成ツールであるHumANavによって実現されています。
学習したナビゲーションポリシーは、将来の人間の動きを明示的に予測することなく、人間に予測し、反応できることを実証する。
論文 参考訳(メタデータ) (2020-03-20T16:13:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。