論文の概要: What do we learn from a large-scale study of pre-trained visual representations in sim and real environments?
- arxiv url: http://arxiv.org/abs/2310.02219v2
- Date: Sat, 13 Jul 2024 18:18:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 04:48:58.640301
- Title: What do we learn from a large-scale study of pre-trained visual representations in sim and real environments?
- Title(参考訳): シミュレーションおよび実環境における事前学習された視覚表現の大規模研究から何を学ぶか。
- Authors: Sneha Silwal, Karmesh Yadav, Tingfan Wu, Jay Vakil, Arjun Majumdar, Sergio Arnaud, Claire Chen, Vincent-Pierre Berges, Dhruv Batra, Aravind Rajeswaran, Mrinal Kalakrishnan, Franziska Meier, Oleksandr Maksymets,
- Abstract要約: 本研究では、実世界のタスクを実行する下流政策のトレーニングに、事前訓練された視覚表現(PVR)の使用に関する大規模な実証的研究を行う。
1)シミュレーションにおけるPVRのパフォーマンス傾向は,一般的に実世界におけるPVRのパフォーマンス傾向を示すものである。
- 参考スコア(独自算出の注目度): 48.75469525877328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a large empirical investigation on the use of pre-trained visual representations (PVRs) for training downstream policies that execute real-world tasks. Our study involves five different PVRs, each trained for five distinct manipulation or indoor navigation tasks. We performed this evaluation using three different robots and two different policy learning paradigms. From this effort, we can arrive at three insights: 1) the performance trends of PVRs in the simulation are generally indicative of their trends in the real world, 2) the use of PVRs enables a first-of-its-kind result with indoor ImageNav (zero-shot transfer to a held-out scene in the real world), and 3) the benefits from variations in PVRs, primarily data-augmentation and fine-tuning, also transfer to the real-world performance. See project website for additional details and visuals.
- Abstract(参考訳): 本研究では、実世界のタスクを実行する下流政策のトレーニングに、事前訓練された視覚表現(PVR)の使用に関する大規模な実証的研究を行う。
私たちの研究は5つの異なるPVRで行われ、それぞれが5つの異なる操作や屋内ナビゲーションタスクのために訓練されている。
3つの異なるロボットと2つの異なるポリシー学習パラダイムを用いて評価を行った。
この取り組みから、私たちは3つの洞察にたどり着くことができます。
1)シミュレーションにおけるPVRの性能傾向は,一般に実世界におけるPVRのパフォーマンス傾向を示すものである。
2)PVRを使用することで,屋内イメージナブ(実世界の保留シーンへのゼロショット転送)によるファースト・オブ・ザ・キンドの結果が実現される。
3)PVRのバリエーション,主にデータ拡張と微調整によるメリットは,実世界のパフォーマンスにも寄与する。
詳しくはプロジェクトのWebサイトを参照してほしい。
関連論文リスト
- SPA: 3D Spatial-Awareness Enables Effective Embodied Representation [20.123243422061048]
具体的AIにおける3次元空間認識の重要性を強調する新しい表現学習フレームワークであるSPAを紹介する。
本研究では,8つのシミュレータにまたがる268のタスクを網羅し,これまでで最も包括的な表現学習の評価を行った。
論文 参考訳(メタデータ) (2024-10-10T17:59:51Z) - Value Explicit Pretraining for Learning Transferable Representations [11.069853883599102]
本稿では,伝達強化学習のための一般化可能な表現を学習する手法を提案する。
我々は、目的条件付き表現のためのエンコーダを学習することで、前回学習したタスクと同様の目的を共有する新しいタスクを学ぶ。
現実的なナビゲーションシミュレータとAtariベンチマークを用いて実験したところ,本手法により生成された事前学習エンコーダは,現在のSoTA事前学習法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-19T17:12:35Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Where are we in the search for an Artificial Visual Cortex for Embodied
Intelligence? [106.81451807227103]
Embodied AIのための、事前訓練された視覚表現(PVR)や視覚的「基礎モデル」に関する、最大かつ最も包括的な実証研究を提示する。
事前学習したデータサイズと多様性の効果を調べるため、7つの異なるソースから4000時間以上のエゴセントリックなビデオを合成する。
当社の最大のモデルであるVC-1は、従来のPVRを平均で上回っているが、どちらも支配的ではない。
論文 参考訳(メタデータ) (2023-03-31T17:56:33Z) - Offline Visual Representation Learning for Embodied Navigation [50.442660137987275]
自己教師付き学習による視覚表現のオフライン事前学習(SSL)
長期学習スケジュール下での画像強調による特定のタスクにおけるビジュモータ表現のオンライン微調整
論文 参考訳(メタデータ) (2022-04-27T23:22:43Z) - The Unsurprising Effectiveness of Pre-Trained Vision Models for Control [33.30717429522186]
本研究では、制御のための事前学習された視覚表現の役割、特に大規模コンピュータビジョンデータセットで訓練された視覚表現について検討する。
事前学習された視覚表現は、制御ポリシーを訓練する上で、地道な状態表現よりも競争力があるか、さらに優れていることが分かりました。
論文 参考訳(メタデータ) (2022-03-07T18:26:14Z) - On Embodied Visual Navigation in Real Environments Through Habitat [20.630139085937586]
ディープラーニングに基づくビジュアルナビゲーションモデルは、大量の視覚的観察に基づいてトレーニングされた場合、効果的なポリシーを学ぶことができる。
この制限に対処するため、仮想環境における視覚ナビゲーションポリシーを効率的に訓練するためのシミュレーションプラットフォームがいくつか提案されている。
本研究では,実世界の航法ピソードを走らせることなく,実世界の観測における航法方針の訓練と評価を効果的に行うことができることを示す。
論文 参考訳(メタデータ) (2020-10-26T09:19:07Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - SimAug: Learning Robust Representations from Simulation for Trajectory
Prediction [78.91518036949918]
本研究では,シミュレーション学習データの拡張により,ロバスト表現を学習する新しい手法を提案する。
我々は,SimAugが実世界の3つのベンチマークで有望な結果を得ることを示す。
論文 参考訳(メタデータ) (2020-04-04T21:22:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。