論文の概要: What can generic neural networks learn from a child's visual experience?
- arxiv url: http://arxiv.org/abs/2305.15372v1
- Date: Wed, 24 May 2023 17:26:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 13:50:28.931598
- Title: What can generic neural networks learn from a child's visual experience?
- Title(参考訳): 一般的なニューラルネットワークは子供の視覚経験から何を学べるのか?
- Authors: A. Emin Orhan, Brenden M. Lake
- Abstract要約: 我々は、子供の視覚的体験のリアルなプロキシ上で、最先端のニューラルネットワークをトレーニングする。
埋め込みモデルと生成モデルの両方を、1人の子供から200時間のヘッドカムビデオでトレーニングします。
私たちは他の2人の子供と実験を再現し、非常によく似た結果を見つけました。
- 参考スコア(独自算出の注目度): 39.59606869996232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Young children develop sophisticated internal models of the world based on
their egocentric visual experience. How much of this is driven by innate
constraints and how much is driven by their experience? To investigate these
questions, we train state-of-the-art neural networks on a realistic proxy of a
child's visual experience without any explicit supervision or domain-specific
inductive biases. Specifically, we train both embedding models and generative
models on 200 hours of headcam video from a single child collected over two
years. We train a total of 72 different models, exploring a range of model
architectures and self-supervised learning algorithms, and comprehensively
evaluate their performance in downstream tasks. The best embedding models
perform at 70% of a highly performant ImageNet-trained model on average. They
also learn broad semantic categories without any labeled examples and learn to
localize semantic categories in an image without any location supervision.
However, these models are less object-centric and more background-sensitive
than comparable ImageNet-trained models. Generative models trained with the
same data successfully extrapolate simple properties of partially masked
objects, such as their texture, color, orientation, and rough outline, but
struggle with finer object details. We replicate our experiments with two other
children and find very similar results. Broadly useful high-level visual
representations are thus robustly learnable from a representative sample of a
child's visual experience without strong inductive biases.
- Abstract(参考訳): 幼児は自我中心の視覚体験に基づいて、世界の洗練された内部モデルを開発する。
そもそもの制約によって、どれくらいが駆動され、どれくらいが経験によって駆動されますか?
そこで本研究では,子どもの視覚体験の現実的代理人に対して,明示的な監督やドメイン固有の帰納的バイアスを伴わずに最先端のニューラルネットワークを訓練する。
具体的には、2年以上に渡り収集された1人の子供のヘッドカムビデオの200時間の埋め込みモデルと生成モデルの両方を訓練する。
72の異なるモデルをトレーニングし,モデルアーキテクチャと自己教師あり学習アルゴリズムを探索し,ダウンストリームタスクにおけるパフォーマンスを総合的に評価した。
最高の埋め込みモデルは、平均して高性能なImageNetトレーニングモデルの70%で実行される。
また、ラベル付き例なしで幅広い意味カテゴリーを学習し、位置の監督なしに画像内の意味カテゴリをローカライズすることを学ぶ。
しかし、これらのモデルはオブジェクト中心ではなく、イメージネット訓練モデルよりも背景に敏感である。
同じデータでトレーニングされた生成モデルは、テクスチャ、色、方向、粗い輪郭など、部分的にマスキングされたオブジェクトの単純な特性を外挿することに成功しました。
実験を他の2人の子供と再現し、非常によく似た結果が得られた。
広範に有用な高次視覚表現は、強い帰納バイアスを伴わずに、子供の視覚経験の代表例から頑健に学習できる。
関連論文リスト
- Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Self-supervised learning of video representations from a child's perspective [27.439294457852423]
子どもたちは、エゴセントリックな視覚経験から、周囲の強力な内部モデルを学びます。
そのような内部モデルは、高度に汎用的な学習アルゴリズムで子どもの視覚経験から学べるか、あるいは強い帰納的バイアスを必要とするのか?
論文 参考訳(メタデータ) (2024-02-01T03:27:26Z) - GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。
我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Vision Models Are More Robust And Fair When Pretrained On Uncurated
Images Without Supervision [38.22842778742829]
差別的な自己教師型学習は、インターネット画像の任意のランダムなグループでのトレーニングモデルを可能にする。
データ前処理や事前の仮定なしで、何十億ものランダムなイメージでモデルをトレーニングします。
フェアネス、分布シフト、地理的多様性、微粒化認識、画像コピー検出、および多くの画像分類データセットを含む50以上のベンチマークにおいて、我々のモデル性能を広範囲に研究し、検証した。
論文 参考訳(メタデータ) (2022-02-16T22:26:47Z) - DALL-Eval: Probing the Reasoning Skills and Social Biases of
Text-to-Image Generation Models [73.12069620086311]
テキスト・ツー・イメージ・モデルの視覚的推論能力と社会的バイアスについて検討する。
まず,物体認識,物体カウント,空間的関係理解という3つの視覚的推論スキルを計測する。
第2に、生成した画像の性別/肌の色調分布を測定することにより、性別と肌のトーンバイアスを評価する。
論文 参考訳(メタデータ) (2022-02-08T18:36:52Z) - Revisiting Weakly Supervised Pre-Training of Visual Perception Models [27.95816470075203]
大規模で弱い教師付き事前訓練は、完全に教師付きアプローチよりも優れている。
本稿では,ハッシュタグによるモデル事前学習の弱さを再考する。
本研究は,視覚認識システム開発における弱教師付き学習の活用について,説得力のある議論を提起する。
論文 参考訳(メタデータ) (2022-01-20T18:55:06Z) - Visual Distant Supervision for Scene Graph Generation [66.10579690929623]
シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。
本研究では,人間ラベルデータを用いずにシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。
包括的な実験結果から、我々の遠隔監視モデルは、弱い監督と半監督のベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-03-29T06:35:24Z) - Distilling Visual Priors from Self-Supervised Learning [24.79633121345066]
畳み込みニューラルネットワーク(CNN)は、小さなトレーニングデータセットに適合する傾向にある。
データ不足条件下での画像分類のためのCNNモデルの一般化能力を向上させるために,自己教師付き学習と知識蒸留を活用した2相パイプラインを提案する。
論文 参考訳(メタデータ) (2020-08-01T13:07:18Z) - A Computational Model of Early Word Learning from the Infant's Point of
View [15.443815646555125]
本研究では,親との遊戯中に幼児の学習者から収集したエゴセントリックな映像と視線データを用いた。
次に、畳み込みニューラルネットワーク(CNN)モデルを用いて、幼児の視点から感覚データを処理し、スクラッチから名前とオブジェクトの関連を学習した。
本研究は,幼児期の単語学習をシミュレートするために生のエゴセントリックビデオを利用する最初のモデルとして,早期語学習の問題を解くことができるという原理の証明を提供する。
論文 参考訳(メタデータ) (2020-06-04T12:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。