論文の概要: Learning Visual Locomotion with Cross-Modal Supervision
- arxiv url: http://arxiv.org/abs/2211.03785v1
- Date: Mon, 7 Nov 2022 18:59:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 18:14:38.161099
- Title: Learning Visual Locomotion with Cross-Modal Supervision
- Title(参考訳): クロスモーダル監督による視覚運動の学習
- Authors: Antonio Loquercio, Ashish Kumar, Jitendra Malik
- Abstract要約: 単眼のRGBカメラとプロプレセプションのみを用いた視覚的歩行ポリシーの学習方法を示す。
私たちは、今後の地形を予測するために、現実世界のビジュアルモジュールをトレーニングします。
実世界のデータの30分未満でこのパフォーマンスを実現します。
- 参考スコア(独自算出の注目度): 60.27747586093774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we show how to learn a visual walking policy that only uses a
monocular RGB camera and proprioception. Since simulating RGB is hard, we
necessarily have to learn vision in the real world. We start with a blind
walking policy trained in simulation. This policy can traverse some terrains in
the real world but often struggles since it lacks knowledge of the upcoming
geometry. This can be resolved with the use of vision. We train a visual module
in the real world to predict the upcoming terrain with our proposed algorithm
Cross-Modal Supervision (CMS). CMS uses time-shifted proprioception to
supervise vision and allows the policy to continually improve with more
real-world experience. We evaluate our vision-based walking policy over a
diverse set of terrains including stairs (up to 19cm high), slippery slopes
(inclination of 35 degrees), curbs and tall steps (up to 20cm), and complex
discrete terrains. We achieve this performance with less than 30 minutes of
real-world data. Finally, we show that our policy can adapt to shifts in the
visual field with a limited amount of real-world experience. Video results and
code at https://antonilo.github.io/vision_locomotion/.
- Abstract(参考訳): 本研究では,単眼のRGBカメラとプロプレセプションのみを用いた視覚的歩行ポリシーの学習方法について述べる。
RGBのシミュレーションは難しいので、現実の世界でビジョンを学ぶ必要がある。
まず、シミュレーションで訓練された盲目の歩行方針から始める。
この方針は現実世界の幾らかの地形を横切ることができるが、今後の幾何学の知識が不足しているため、しばしば苦労する。
これは視覚を用いることで解決できる。
提案するアルゴリズムクロスモーダル監督(cms)を用いて,実世界の視覚モジュールを訓練し,今後の地形を予測する。
CMSは、視覚を監督するために時間シフトのプロプレオーセプションを使用し、より現実的な体験でポリシーを継続的に改善することを可能にする。
我々は、階段(最大19cm)、滑りやすい斜面(傾斜35度)、縁石と高い階段(最大20cm)、複雑な離散地形を含む、様々な地形における視覚に基づく歩行方針を評価した。
実世界のデータの30分未満でこのパフォーマンスを実現します。
最後に,我々の政策は,現実体験の少ない視野における変化に適応できることを示す。
ビデオ結果とコードはhttps://antonilo.github.io/vision_locomotion/。
関連論文リスト
- Learning Interactive Real-World Simulators [107.12907352474005]
生成モデルを用いて実世界の相互作用の普遍的なシミュレータを学習する可能性について検討する。
シミュレーターを用いて、高レベルな視覚言語ポリシーと低レベルな強化学習ポリシーの両方を訓練する。
ビデオキャプションモデルは、シミュレートされた経験を持つトレーニングの恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-10-09T19:42:22Z) - Legged Locomotion in Challenging Terrains using Egocentric Vision [70.37554680771322]
本稿では,階段,縁石,石段,隙間を横断できる最初のエンドツーエンド移動システムを提案する。
この結果を,1台の前面深度カメラを用いた中型四足歩行ロボットに示す。
論文 参考訳(メタデータ) (2022-11-14T18:59:58Z) - Sim-to-Real via Sim-to-Seg: End-to-end Off-road Autonomous Driving
Without Real Data [56.49494318285391]
我々は、オフロード自動運転の視覚的現実的ギャップを横断するRCANを再想像するSim2Segを紹介する。
これは、ランダム化されたシミュレーション画像をシミュレートされたセグメンテーションと深さマップに変換する学習によって行われる。
これにより、シミュレーションでエンドツーエンドのRLポリシーをトレーニングし、現実世界に直接デプロイできます。
論文 参考訳(メタデータ) (2022-10-25T17:50:36Z) - Gaze-Vergence-Controlled See-Through Vision in Augmented Reality [8.731965517676842]
我々は、例えば、空中クリックや音声など、共通の相互作用のモダリティを使用することは、視線を通すのに最適な方法ではないと論じる。
これは、何かを通して見たいとき、視線深度/収束度と物理的に関係しているからです。
本稿では,ARにおける新しい視線バージェンス制御(GVC)シースルービジョン技術を提案する。
論文 参考訳(メタデータ) (2022-07-06T13:11:34Z) - Vision-Guided Quadrupedal Locomotion in the Wild with Multi-Modal Delay
Randomization [9.014518402531875]
我々は、予め定義されたコントローラや参照動作を使わずに、物理シミュレータにおけるエンドツーエンド制御のためのRLポリシーを訓練する。
ロボットが高速でスムーズに動き、障害物を回避し、ベースラインよりも大幅に改善できることを実証する。
論文 参考訳(メタデータ) (2021-09-29T16:48:05Z) - Learning Perceptual Locomotion on Uneven Terrains using Sparse Visual
Observations [75.60524561611008]
この研究は、人中心の環境において、よく見られるバンプ、ランプ、階段の広い範囲にわたる知覚的移動を達成するために、スパースな視覚的観察の使用を活用することを目的としている。
まず、関心の均一な面を表すことのできる最小限の視覚入力を定式化し、このような外受容的・固有受容的データを統合した学習フレームワークを提案する。
本研究では, 平地を全方向歩行し, 障害物のある地形を前方移動させるタスクにおいて, 学習方針を検証し, 高い成功率を示す。
論文 参考訳(メタデータ) (2021-09-28T20:25:10Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。