論文の概要: Scaling may be all you need for achieving human-level object recognition
capacity with human-like visual experience
- arxiv url: http://arxiv.org/abs/2308.03712v2
- Date: Thu, 10 Aug 2023 16:23:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 15:06:49.834574
- Title: Scaling may be all you need for achieving human-level object recognition
capacity with human-like visual experience
- Title(参考訳): 人間のような視覚体験で人間レベルの物体認識能力を達成するために必要なスケーリング
- Authors: A. Emin Orhan
- Abstract要約: データサイズ、モデルサイズ、画像解像度の同時スケーリングについて検討する。
サブヒューマンスケールで人間レベルの物体認識能力に到達することが可能であることが判明した。
- 参考スコア(独自算出の注目度): 21.067139116005592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper asks whether current self-supervised learning methods, if
sufficiently scaled up, would be able to reach human-level visual object
recognition capabilities with the same type and amount of visual experience
humans learn from. Previous work on this question only considered the scaling
of data size. Here, we consider the simultaneous scaling of data size, model
size, and image resolution. We perform a scaling experiment with vision
transformers up to 633M parameters in size (ViT-H/14) trained with up to 5K
hours of human-like video data (long, continuous, mostly egocentric videos)
with image resolutions of up to 476x476 pixels. The efficiency of masked
autoencoders (MAEs) as a self-supervised learning algorithm makes it possible
to run this scaling experiment on an unassuming academic budget. We find that
it is feasible to reach human-level object recognition capacity at sub-human
scales of model size, data size, and image size, if these factors are scaled up
simultaneously. To give a concrete example, we estimate that a 2.5B parameter
ViT model trained with 20K hours (2.3 years) of human-like video data with a
spatial resolution of 952x952 pixels should be able to reach roughly
human-level accuracy on ImageNet. Human-level competence is thus achievable for
a fundamental perceptual capability from human-like perceptual experience
(human-like in both amount and type) with extremely generic learning algorithms
and architectures and without any substantive inductive biases.
- Abstract(参考訳): 本稿では,現在の自己指導型学習手法が,十分にスケールアップすれば,人間が学習する視覚的体験の種類と量で,人間レベルの視覚的物体認識能力に到達できるかどうかを問う。
この質問に対する以前の研究は、データサイズのスケーリングのみを考慮していた。
本稿では,データサイズ,モデルサイズ,画像解像度の同時スケーリングについて考察する。
最大633mのパラメータサイズ(vit-h/14)の視覚トランスフォーマーを用いて、最大5k時間分の人間ライクなビデオデータ(長大で連続的でほとんどエゴセントリックなビデオ)を最大476×476ピクセルの解像度でトレーニングした。
自己教師付き学習アルゴリズムとしてのマスク付きオートエンコーダ(MAE)の効率は、このスケーリング実験を想定外の学術予算で実行可能にする。
モデルサイズ,データサイズ,画像サイズなどのサブヒューマンスケールで,これらの要因を同時にスケールアップすれば,人間レベルの物体認識能力に到達することが可能であることが判明した。
具体的には,20K時間(2.3年)でトレーニングされた2.5BパラメータViTモデルと,空間解像度922×952ピクセルの映像ネット上で,ほぼ人間レベルの精度に達することができると推定する。
したがって、人間レベルの能力は、人間のような知覚経験(量とタイプの両方において人間のような)から、極めて汎用的な学習アルゴリズムとアーキテクチャで、かつ従属的な帰納的バイアスのない基本的な知覚能力として実現可能である。
関連論文リスト
- Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。
我々は500人以上の参加者から行動データの35万件の試行を収集した。
次に、一般的な視覚モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-09-09T17:59:13Z) - HINT: Learning Complete Human Neural Representations from Limited Viewpoints [69.76947323932107]
我々は、限られた視野角から詳細な人間のモデルを学習できるNeRFベースのアルゴリズムを提案する。
その結果,数個の視角からでも完全な人間の再構築が可能となり,性能は15%以上向上した。
論文 参考訳(メタデータ) (2024-05-30T05:43:09Z) - MVHumanNet: A Large-scale Dataset of Multi-view Daily Dressing Human
Captures [44.172804112944625]
MVHumanNetは4,500人の身元からなる多視点人間の行動系列からなるデータセットである。
我々のデータセットには、人のマスク、カメラパラメータ、2Dおよび3Dキーポイント、SMPL/SMPLXパラメータ、および対応するテキスト記述を含む、9000の日次服、6万のモーションシーケンス、645万の豊富なアノテーションが含まれています。
論文 参考訳(メタデータ) (2023-12-05T18:50:12Z) - A degree of image identification at sub-human scales could be possible
with more advanced clusters [0.0]
最大20万枚の画像を256ppiまでトレーニングしたビジョントランスフォーマーによるスケーリング実験を実施しました。
データのボリュームと画像の解像度を同時にスケールアップすることで、人間レベルのアイテム検出性能が人以下のサイズで向上することを発見した。
論文 参考訳(メタデータ) (2023-08-09T17:40:12Z) - Neural Novel Actor: Learning a Generalized Animatable Neural
Representation for Human Actors [98.24047528960406]
本稿では,複数の人物の多視点画像のスパース集合から,汎用的アニマタブルなニューラル表現を学習するための新しい手法を提案する。
学習された表現は、カメラのスパースセットから任意の人の新しいビューイメージを合成し、さらにユーザのポーズ制御でアニメーション化することができる。
論文 参考訳(メタデータ) (2022-08-25T07:36:46Z) - How much "human-like" visual experience do current self-supervised
learning algorithms need to achieve human-level object recognition? [13.198689566654108]
その答えは、100万年にわたる自然視体験の順番、つまり、人間の寿命よりも数桁長い順序にあると推定する。
我々は、我々の見積もりと、このかなり驚くべき結果の意味にまつわる主な注意点について論じる。
論文 参考訳(メタデータ) (2021-09-23T17:45:36Z) - What Matters in Learning from Offline Human Demonstrations for Robot
Manipulation [64.43440450794495]
ロボット操作のための6つのオフライン学習アルゴリズムについて広範な研究を行う。
我々の研究は、オフラインの人間のデータから学習する際の最も重要な課題を分析します。
人間のデータセットから学ぶ機会を強調します。
論文 参考訳(メタデータ) (2021-08-06T20:48:30Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Cascaded deep monocular 3D human pose estimation with evolutionary
training data [76.3478675752847]
深層表現学習は単眼の3次元ポーズ推定において顕著な精度を達成した。
本稿では,大量のトレーニングデータに対してスケーラブルな新しいデータ拡張手法を提案する。
本手法は,先行知識に触発された階層的人体表現と合成に基づいて,未知の3次元人体骨格を合成する。
論文 参考訳(メタデータ) (2020-06-14T03:09:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。