論文の概要: Where are we in the search for an Artificial Visual Cortex for Embodied
Intelligence?
- arxiv url: http://arxiv.org/abs/2303.18240v2
- Date: Thu, 1 Feb 2024 19:42:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 20:43:44.160662
- Title: Where are we in the search for an Artificial Visual Cortex for Embodied
Intelligence?
- Title(参考訳): 身体的な知性のための人工視覚野を 探している場所は?
- Authors: Arjun Majumdar and Karmesh Yadav and Sergio Arnaud and Yecheng Jason
Ma and Claire Chen and Sneha Silwal and Aryan Jain and Vincent-Pierre Berges
and Pieter Abbeel and Jitendra Malik and Dhruv Batra and Yixin Lin and
Oleksandr Maksymets and Aravind Rajeswaran and Franziska Meier
- Abstract要約: Embodied AIのための、事前訓練された視覚表現(PVR)や視覚的「基礎モデル」に関する、最大かつ最も包括的な実証研究を提示する。
事前学習したデータサイズと多様性の効果を調べるため、7つの異なるソースから4000時間以上のエゴセントリックなビデオを合成する。
当社の最大のモデルであるVC-1は、従来のPVRを平均で上回っているが、どちらも支配的ではない。
- 参考スコア(独自算出の注目度): 106.81451807227103
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present the largest and most comprehensive empirical study of pre-trained
visual representations (PVRs) or visual 'foundation models' for Embodied AI.
First, we curate CortexBench, consisting of 17 different tasks spanning
locomotion, navigation, dexterous, and mobile manipulation. Next, we
systematically evaluate existing PVRs and find that none are universally
dominant. To study the effect of pre-training data size and diversity, we
combine over 4,000 hours of egocentric videos from 7 different sources (over
4.3M images) and ImageNet to train different-sized vision transformers using
Masked Auto-Encoding (MAE) on slices of this data. Contrary to inferences from
prior work, we find that scaling dataset size and diversity does not improve
performance universally (but does so on average). Our largest model, named
VC-1, outperforms all prior PVRs on average but does not universally dominate
either. Next, we show that task- or domain-specific adaptation of VC-1 leads to
substantial gains, with VC-1 (adapted) achieving competitive or superior
performance than the best known results on all of the benchmarks in
CortexBench. Finally, we present real-world hardware experiments, in which VC-1
and VC-1 (adapted) outperform the strongest pre-existing PVR. Overall, this
paper presents no new techniques but a rigorous systematic evaluation, a broad
set of findings about PVRs (that in some cases, refute those made in narrow
domains in prior work), and open-sourced code and models (that required over
10,000 GPU-hours to train) for the benefit of the research community.
- Abstract(参考訳): Embodied AIのための、事前訓練された視覚表現(PVR)や視覚的「基礎モデル」に関する、最大かつ最も包括的な実証研究を示す。
まずcortexbenchをキュレートし、locomotion、navigation、dexterous、mobile manipulationの17のタスクからなる。
次に、既存のpvrを体系的に評価し、誰も普遍的に支配していないことを発見する。
データサイズと多様性の事前学習の効果を調べるために、7つの異なるソース(4.3M画像以上)から4000時間以上のエゴセントリックなビデオとImageNetを組み合わせて、Masked Auto-Encoding (MAE) を用いて異なるサイズの視覚変換器をトレーニングする。
以前の作業からの推測とは対照的に、データセットのサイズと多様性のスケーリングは、パフォーマンスを普遍的に改善しない(平均ではそうする)。
当社の最大のモデルであるVC-1は、従来のPVRを平均で上回っているが、どちらも支配的ではない。
次に、vc-1のタスクやドメイン固有の適応が実質的な利益をもたらし、vc-1(適応)がcortexbenchのベンチマークで最もよく知られた結果よりも競争力や優れたパフォーマンスを達成していることを示す。
最後に、vc-1とvc-1(適応型)が既存の最強のpvrを上回る実世界のハードウェア実験を行う。
総じて,本論文では,新たな手法として厳密な体系的評価,pvrに関する幅広い知見(場合によっては,前作業で狭義のドメインで作成したものを反論する),研究コミュニティの利益のためにオープンソースコードやモデル(トレーニングに1万時間以上を要する)を提示した。
関連論文リスト
- Unleashing Large-Scale Video Generative Pre-training for Visual Robot
Manipulation [25.09113607683987]
本稿では,マルチタスク言語を用いた視覚ロボット操作のためのGPTスタイルモデルGR-1を紹介する。
GR-1は、言語命令、観察画像のシーケンス、およびロボット状態のシーケンスを入力する。
ロボットの動作と将来のイメージをエンドツーエンドで予測する。
論文 参考訳(メタデータ) (2023-12-20T16:00:43Z) - SeiT++: Masked Token Modeling Improves Storage-efficient Training [36.95646819348317]
近年のDeep Neural Network(DNN)モデルでは,コンピュータビジョンタスクのパフォーマンスが大幅に向上している。
高度に一般化可能で高性能なビジョンモデルを実現するには、拡張データセットが必要である。
SeiTによる最近のブレークスルーは、Vector-Quantized (VQ)特徴ベクトル(トークン)を視覚分類のためのネットワーク入力として使用することを提案した。
本稿では,自己指導型事前学習のためのMasked Token Modeling (MTM)を統合し,SeyTを拡張した。
論文 参考訳(メタデータ) (2023-12-15T04:11:34Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - What do we learn from a large-scale study of pre-trained visual representations in sim and real environments? [48.75469525877328]
本研究では、実世界のタスクを実行する下流政策のトレーニングに、事前訓練された視覚表現(PVR)の使用に関する大規模な実証的研究を行う。
1)シミュレーションにおけるPVRのパフォーマンス傾向は,一般的に実世界におけるPVRのパフォーマンス傾向を示すものである。
論文 参考訳(メタデータ) (2023-10-03T17:27:10Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - ProcTHOR: Large-Scale Embodied AI Using Procedural Generation [55.485985317538194]
ProcTHORは、Embodied AI環境の手続き的生成のためのフレームワークである。
ナビゲーション、アレンジメント、アーム操作のための6つの具体化されたAIベンチマークに対して、最先端の結果を実証する。
論文 参考訳(メタデータ) (2022-06-14T17:09:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。