論文の概要: World Model-based Perception for Visual Legged Locomotion
- arxiv url: http://arxiv.org/abs/2409.16784v1
- Date: Wed, 25 Sep 2024 09:47:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 04:30:14.942417
- Title: World Model-based Perception for Visual Legged Locomotion
- Title(参考訳): 世界モデルによる視覚足歩行の知覚
- Authors: Hang Lai, Jiahang Cao, Jiafeng Xu, Hongtao Wu, Yunfeng Lin, Tao Kong, Yong Yu, Weinan Zhang,
- Abstract要約: 我々は環境のワールドモデルを構築し、世界モデルに基づいたポリシーを学習する。
World Model-based Perceptionは、トラバーサビリティとロバストネスにおいて最先端のベースラインよりも優れています。
- 参考スコア(独自算出の注目度): 37.24680913794571
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Legged locomotion over various terrains is challenging and requires precise perception of the robot and its surroundings from both proprioception and vision. However, learning directly from high-dimensional visual input is often data-inefficient and intricate. To address this issue, traditional methods attempt to learn a teacher policy with access to privileged information first and then learn a student policy to imitate the teacher's behavior with visual input. Despite some progress, this imitation framework prevents the student policy from achieving optimal performance due to the information gap between inputs. Furthermore, the learning process is unnatural since animals intuitively learn to traverse different terrains based on their understanding of the world without privileged knowledge. Inspired by this natural ability, we propose a simple yet effective method, World Model-based Perception (WMP), which builds a world model of the environment and learns a policy based on the world model. We illustrate that though completely trained in simulation, the world model can make accurate predictions of real-world trajectories, thus providing informative signals for the policy controller. Extensive simulated and real-world experiments demonstrate that WMP outperforms state-of-the-art baselines in traversability and robustness. Videos and Code are available at: https://wmp-loco.github.io/.
- Abstract(参考訳): 様々な地形を横切る移動は困難であり、ロボットとその周囲をプロプレセプションと視覚の両方から正確に認識する必要がある。
しかし、高次元視覚入力から直接学習することは、しばしばデータ非効率で複雑である。
この問題に対処するために,従来の手法では,まず特権情報にアクセスして教師の方針を学習し,次に教師の行動を視覚的入力で模倣する生徒の方針を学習する。
ある程度の進歩にもかかわらず、この模倣フレームワークは、入力間の情報ギャップによって学生の政策が最適なパフォーマンスを達成するのを妨げている。
さらに、動物は特権的な知識のない世界理解に基づいて、直感的に異なる地形を横切ることを学習するので、学習プロセスは不自然である。
この自然能力に触発されて,世界モデルに基づく世界モデルを構築し,世界モデルに基づく政策を学習する,シンプルで効果的な世界モデルベース知覚(WMP)を提案する。
シミュレーションで完全に訓練されているものの,世界モデルは実世界の軌道の正確な予測を行うことができ,ポリシコントローラに情報信号を提供する。
広範にシミュレーションされた実世界の実験により、WMPはトラバーサビリティとロバストネスにおいて最先端のベースラインを上回っていることが示された。
ビデオとコードは、https://wmp-loco.github.io/.com/で入手できる。
関連論文リスト
- DynaMo: In-Domain Dynamics Pretraining for Visuo-Motor Control [18.737628473949048]
模倣学習は、複雑なビジュモータポリシーを訓練するための強力なツールであることが証明されている。
現在の手法では、高次元の視覚的観察を扱うために数百から数千の専門家によるデモンストレーションが必要となることが多い。
視覚表現を学習するための新しいドメイン内自己教師型DynaMoを提案する。
論文 参考訳(メタデータ) (2024-09-18T17:59:43Z) - Grasp Anything: Combining Teacher-Augmented Policy Gradient Learning with Instance Segmentation to Grasp Arbitrary Objects [18.342569823885864]
TAPG(Teacher-Augmented Policy Gradient)は、強化学習と政策蒸留を統括する新しい2段階学習フレームワークである。
TAPGは、オブジェクトセグメンテーションに基づいて、誘導的かつ適応的でありながら、センセータポリシーの学習を促進する。
トレーニングされたポリシーは、シミュレーションにおける散らかったシナリオや、人間の理解可能なプロンプトに基づいて現実世界から、多種多様なオブジェクトを順応的に把握する。
論文 参考訳(メタデータ) (2024-03-15T10:48:16Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - Learning Interactive Real-World Simulators [96.5991333400566]
生成モデルを用いて実世界の相互作用の普遍的なシミュレータを学習する可能性について検討する。
シミュレーターを用いて、高レベルな視覚言語ポリシーと低レベルな強化学習ポリシーの両方を訓練する。
ビデオキャプションモデルは、シミュレートされた経験を持つトレーニングの恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-10-09T19:42:22Z) - Navigating to Objects in the Real World [76.1517654037993]
本稿では,古典的,モジュール的,エンド・ツー・エンドの学習手法と比較した,意味的視覚ナビゲーション手法に関する大規模な実証的研究について述べる。
モジュラー学習は実世界ではうまく機能し、90%の成功率に達しています。
対照的に、エンド・ツー・エンドの学習は、シミュレーションと現実の間の画像領域の差が大きいため、77%のシミュレーションから23%の実際の成功率へと低下する。
論文 参考訳(メタデータ) (2022-12-02T01:10:47Z) - Practical Imitation Learning in the Real World via Task Consistency Loss [18.827979446629296]
本稿では,機能レベルと行動予測レベルの両方において,シミュレートと実際のアライメントを促進する自己監督的損失を提案する。
我々は、シミュレートとリアルで遠隔操作されたデモンストレーションを16.2時間しか使っていない10のシーンで80%の成功を達成した。
論文 参考訳(メタデータ) (2022-02-03T21:43:06Z) - Curious Representation Learning for Embodied Intelligence [81.21764276106924]
近年,自己指導型表現学習は顕著な成功を収めている。
しかし、真にインテリジェントなエージェントを構築するためには、環境から学習できる表現学習アルゴリズムを構築する必要がある。
本稿では,強化学習方針と視覚的表現モデルを同時に学習する,好奇心をそそる表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-03T17:59:20Z) - ViNG: Learning Open-World Navigation with Visual Goals [82.84193221280216]
視覚的目標達成のための学習に基づくナビゲーションシステムを提案する。
提案手法は,我々がvingと呼ぶシステムが,目標条件強化学習のための提案手法を上回っていることを示す。
我々は、ラストマイル配送や倉庫検査など、現実の多くのアプリケーションでViNGを実演する。
論文 参考訳(メタデータ) (2020-12-17T18:22:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。