論文の概要: How much "human-like" visual experience do current self-supervised
learning algorithms need to achieve human-level object recognition?
- arxiv url: http://arxiv.org/abs/2109.11523v2
- Date: Mon, 27 Sep 2021 15:03:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 10:33:52.497200
- Title: How much "human-like" visual experience do current self-supervised
learning algorithms need to achieve human-level object recognition?
- Title(参考訳): 現在の自己教師付き学習アルゴリズムは、人間レベルのオブジェクト認識を達成するためにどのくらいの“人間的”な視覚体験が必要か?
- Authors: A. Emin Orhan
- Abstract要約: その答えは、100万年にわたる自然視体験の順番、つまり、人間の寿命よりも数桁長い順序にあると推定する。
我々は、我々の見積もりと、このかなり驚くべき結果の意味にまつわる主な注意点について論じる。
- 参考スコア(独自算出の注目度): 13.198689566654108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses a fundamental question: how good are our current
self-supervised visual representation learning algorithms relative to humans?
More concretely, how much "human-like", natural visual experience would these
algorithms need in order to reach human-level performance in a complex,
realistic visual object recognition task such as ImageNet? Using a scaling
experiment, here we estimate that the answer is on the order of a million years
of natural visual experience, in other words several orders of magnitude longer
than a human lifetime. However, this estimate is quite sensitive to some
underlying assumptions, underscoring the need to run carefully controlled human
experiments. We discuss the main caveats surrounding our estimate and the
implications of this rather surprising result.
- Abstract(参考訳): 本稿は、人間に対する現在の自己教師型視覚表現学習アルゴリズムがどの程度優れているかという根本的な疑問に対処する。
より具体的には、imagenetのような複雑で現実的なビジュアルオブジェクト認識タスクで人間レベルのパフォーマンスに到達するために、これらのアルゴリズムがどれだけの「人間のような」自然な視覚体験が必要か?
スケーリング実験によって、この答えは人間の寿命よりも数桁長い、100万年に及ぶ自然視覚体験の順序にあると推定する。
しかし、この推定はいくつかの前提に非常に敏感であり、注意深く制御された人間の実験を実行する必要性を裏付けている。
我々は、見積もりに関する主な注意事項と、この驚くべき結果の意義について論じる。
関連論文リスト
- Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。
我々は500人以上の参加者から行動データの35万件の試行を収集した。
次に、一般的な視覚モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-09-09T17:59:13Z) - Offline Imitation Learning Through Graph Search and Retrieval [57.57306578140857]
模倣学習は、ロボットが操作スキルを取得するための強力な機械学習アルゴリズムである。
本稿では,グラフ検索と検索により,最適下実験から学習する,シンプルで効果的なアルゴリズムGSRを提案する。
GSRは、ベースラインに比べて10%から30%高い成功率、30%以上の熟練を達成できる。
論文 参考訳(メタデータ) (2024-07-22T06:12:21Z) - HINT: Learning Complete Human Neural Representations from Limited Viewpoints [69.76947323932107]
我々は、限られた視野角から詳細な人間のモデルを学習できるNeRFベースのアルゴリズムを提案する。
その結果,数個の視角からでも完全な人間の再構築が可能となり,性能は15%以上向上した。
論文 参考訳(メタデータ) (2024-05-30T05:43:09Z) - Neural feels with neural fields: Visuo-tactile perception for in-hand
manipulation [57.60490773016364]
マルチフィンガーハンドの視覚と触覚を組み合わせることで,手動操作時の物体の姿勢と形状を推定する。
提案手法であるNeuralFeelsは,ニューラルネットワークをオンラインで学習することでオブジェクトの形状を符号化し,ポーズグラフ問題を最適化して共同で追跡する。
私たちの結果は、タッチが少なくとも、洗練され、そして最も最良のものは、手動操作中に視覚的推定を曖昧にすることを示しています。
論文 参考訳(メタデータ) (2023-12-20T22:36:37Z) - A degree of image identification at sub-human scales could be possible
with more advanced clusters [0.0]
最大20万枚の画像を256ppiまでトレーニングしたビジョントランスフォーマーによるスケーリング実験を実施しました。
データのボリュームと画像の解像度を同時にスケールアップすることで、人間レベルのアイテム検出性能が人以下のサイズで向上することを発見した。
論文 参考訳(メタデータ) (2023-08-09T17:40:12Z) - Scaling may be all you need for achieving human-level object recognition
capacity with human-like visual experience [21.067139116005592]
データサイズ、モデルサイズ、画像解像度の同時スケーリングについて検討する。
サブヒューマンスケールで人間レベルの物体認識能力に到達することが可能であることが判明した。
論文 参考訳(メタデータ) (2023-08-07T16:31:38Z) - Adding Knowledge to Unsupervised Algorithms for the Recognition of
Intent [3.0079490585515343]
我々は,シーン内のエージェントの動作が意図的か意図的かを,その3Dキネマティクスに基づいて推定できるアルゴリズムを導出する。
この基本的な知識を追加することで、単純な教師なしのアルゴリズムがもたらされることを示す。
これらのデータセットの実験により、我々のアルゴリズムは、トレーニングデータなしでも、アクションが意図的かどうかを認識できることが示されている。
論文 参考訳(メタデータ) (2020-11-12T05:57:09Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Bongard-LOGO: A New Benchmark for Human-Level Concept Learning and
Reasoning [78.13740873213223]
ボナード問題(BP)は、インテリジェントシステムにおける視覚認知へのインスピレーションとして導入された。
我々は人間レベルの概念学習と推論のための新しいベンチマークBongard-LOGOを提案する。
論文 参考訳(メタデータ) (2020-10-02T03:19:46Z) - Can Deep Learning Recognize Subtle Human Activities? [8.133739801185271]
本稿では,人間による行動分類の課題を提案するが,最先端のディープラーニングモデルでは不十分である。
原則の証明として、飲酒、読書、座りという3つの模範的なタスクについて考察する。
最新のコンピュータビジョンモデルで到達した最良の精度は、それぞれ61.7%、62.8%、76.8%であった。
論文 参考訳(メタデータ) (2020-03-30T22:45:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。