論文の概要: Where are we in the search for an Artificial Visual Cortex for Embodied
Intelligence?
- arxiv url: http://arxiv.org/abs/2303.18240v1
- Date: Fri, 31 Mar 2023 17:56:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 13:00:06.602856
- Title: Where are we in the search for an Artificial Visual Cortex for Embodied
Intelligence?
- Title(参考訳): 身体的な知性のための人工視覚野を 探している場所は?
- Authors: Arjun Majumdar and Karmesh Yadav and Sergio Arnaud and Yecheng Jason
Ma and Claire Chen and Sneha Silwal and Aryan Jain and Vincent-Pierre Berges
and Pieter Abbeel and Jitendra Malik and Dhruv Batra and Yixin Lin and
Oleksandr Maksymets and Aravind Rajeswaran and Franziska Meier
- Abstract要約: Embodied AIのための、トレーニング済みの視覚表現(PVR)に関する、最大かつ最も包括的な実証的研究を提示する。
私たちは7つの異なるソースから4000時間以上のエゴセントリックなビデオを組み合わせて、異なるサイズのビジョントランスフォーマーを訓練しています。
当社の最大のモデルであるVC-1は、従来のPVRを平均で上回っているが、どちらも支配的ではない。
- 参考スコア(独自算出の注目度): 107.29360515105445
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present the largest and most comprehensive empirical study of pre-trained
visual representations (PVRs) or visual 'foundation models' for Embodied AI.
First, we curate CortexBench, consisting of 17 different tasks spanning
locomotion, navigation, dexterous, and mobile manipulation. Next, we
systematically evaluate existing PVRs and find that none are universally
dominant.
To study the effect of pre-training data scale and diversity, we combine over
4,000 hours of egocentric videos from 7 different sources (over 5.6M images)
and ImageNet to train different-sized vision transformers using Masked
Auto-Encoding (MAE) on slices of this data. Contrary to inferences from prior
work, we find that scaling dataset size and diversity does not improve
performance universally (but does so on average).
Our largest model, named VC-1, outperforms all prior PVRs on average but does
not universally dominate either. Finally, we show that task or domain-specific
adaptation of VC-1 leads to substantial gains, with VC-1 (adapted) achieving
competitive or superior performance than the best known results on all of the
benchmarks in CortexBench. These models required over 10,000 GPU-hours to train
and can be found on our website for the benefit of the research community.
- Abstract(参考訳): Embodied AIのための、事前訓練された視覚表現(PVR)や視覚的「基礎モデル」に関する、最大かつ最も包括的な実証研究を示す。
まずcortexbenchをキュレートし、locomotion、navigation、dexterous、mobile manipulationの17のタスクからなる。
次に、既存のpvrを体系的に評価し、誰も普遍的に支配していないことを発見する。
データスケールと多様性の事前学習の影響を調べるために,7つの異なるソース(5.6m以上の画像)のエゴセントリックビデオ4000時間以上とimagenetを組み合わせることで,マスキングオートエンコーディング(mae)を用いて異なるサイズの視覚トランスフォーマーをトレーニングする。
以前の作業からの推測とは対照的に、データセットのサイズと多様性のスケーリングは、パフォーマンスを普遍的に改善しない(平均ではそうする)。
当社の最大のモデルであるVC-1は、従来のPVRを平均で上回っているが、どちらも支配的ではない。
最後に、vc-1のタスクやドメイン固有の適応は実質的な利益をもたらし、vc-1(適応)はcortexbenchのベンチマークで最もよく知られた結果よりも競争力や優れたパフォーマンスを達成している。
これらのモデルはトレーニングに1万時間以上のGPU時間が必要で、研究コミュニティの利益のために、私たちのWebサイトで見つけることができます。
関連論文リスト
- Unleashing Large-Scale Video Generative Pre-training for Visual Robot
Manipulation [25.09113607683987]
本稿では,マルチタスク言語を用いた視覚ロボット操作のためのGPTスタイルモデルGR-1を紹介する。
GR-1は、言語命令、観察画像のシーケンス、およびロボット状態のシーケンスを入力する。
ロボットの動作と将来のイメージをエンドツーエンドで予測する。
論文 参考訳(メタデータ) (2023-12-20T16:00:43Z) - SeiT++: Masked Token Modeling Improves Storage-efficient Training [36.95646819348317]
近年のDeep Neural Network(DNN)モデルでは,コンピュータビジョンタスクのパフォーマンスが大幅に向上している。
高度に一般化可能で高性能なビジョンモデルを実現するには、拡張データセットが必要である。
SeiTによる最近のブレークスルーは、Vector-Quantized (VQ)特徴ベクトル(トークン)を視覚分類のためのネットワーク入力として使用することを提案した。
本稿では,自己指導型事前学習のためのMasked Token Modeling (MTM)を統合し,SeyTを拡張した。
論文 参考訳(メタデータ) (2023-12-15T04:11:34Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - What do we learn from a large-scale study of pre-trained visual representations in sim and real environments? [48.75469525877328]
本研究では、実世界のタスクを実行する下流政策のトレーニングに、事前訓練された視覚表現(PVR)の使用に関する大規模な実証的研究を行う。
1)シミュレーションにおけるPVRのパフォーマンス傾向は,一般的に実世界におけるPVRのパフォーマンス傾向を示すものである。
論文 参考訳(メタデータ) (2023-10-03T17:27:10Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - ProcTHOR: Large-Scale Embodied AI Using Procedural Generation [55.485985317538194]
ProcTHORは、Embodied AI環境の手続き的生成のためのフレームワークである。
ナビゲーション、アレンジメント、アーム操作のための6つの具体化されたAIベンチマークに対して、最先端の結果を実証する。
論文 参考訳(メタデータ) (2022-06-14T17:09:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。