論文の概要: Learning high-level visual representations from a child's perspective
without strong inductive biases
- arxiv url: http://arxiv.org/abs/2305.15372v2
- Date: Fri, 22 Sep 2023 17:41:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-25 18:56:42.413091
- Title: Learning high-level visual representations from a child's perspective
without strong inductive biases
- Title(参考訳): 強い帰納バイアスを伴わない子どもの視点からの高次視覚表現の学習
- Authors: A. Emin Orhan, Brenden M. Lake
- Abstract要約: 我々は、子どもの視覚体験のリアルなプロキシ上で、明示的な監督なしに最先端のニューラルネットワークを訓練する。
埋め込みモデルと生成モデルの両方を、1人の子供から200時間のヘッドカムビデオでトレーニングします。
同じデータで訓練された生成モデルは、部分的にマスキングされたオブジェクトの単純な性質を外挿することに成功しました。
- 参考スコア(独自算出の注目度): 21.466000613898988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Young children develop sophisticated internal models of the world based on
their visual experience. Can such models be learned from a child's visual
experience without strong inductive biases? To investigate this, we train
state-of-the-art neural networks on a realistic proxy of a child's visual
experience without any explicit supervision or domain-specific inductive
biases. Specifically, we train both embedding models and generative models on
200 hours of headcam video from a single child collected over two years and
comprehensively evaluate their performance in downstream tasks using various
reference models as yardsticks. On average, the best embedding models perform
at a respectable 70% of a high-performance ImageNet-trained model, despite
substantial differences in training data. They also learn broad semantic
categories and object localization capabilities without explicit supervision,
but they are less object-centric than models trained on all of ImageNet.
Generative models trained with the same data successfully extrapolate simple
properties of partially masked objects, like their rough outline, texture,
color, or orientation, but struggle with finer object details. We replicate our
experiments with two other children and find remarkably consistent results.
Broadly useful high-level visual representations are thus robustly learnable
from a representative sample of a child's visual experience without strong
inductive biases.
- Abstract(参考訳): 幼児は視覚経験に基づいて世界の洗練された内部モデルを開発する。
そのようなモデルは、強い帰納バイアスを伴わずに、子供の視覚経験から学べるか?
そこで我々は,子どもの視覚体験のリアルなプロキシ上で,明示的な監督やドメイン固有の帰納バイアスを伴わずに,最先端のニューラルネットワークを訓練する。
具体的には,2年以上にわたって収集した1人の子どもから200時間分のヘッドカメラ映像に対して,組込みモデルと生成モデルの両方を訓練し,様々な参照モデルを用いて下流課題における性能を総合的に評価した。
平均すると、最高の埋め込みモデルは、トレーニングデータにかなりの違いがあるにもかかわらず、高性能なImageNet訓練モデルの70%で実行されます。
また、明示的な監督なしに幅広い意味カテゴリーやオブジェクトのローカライゼーション機能を学ぶが、それらはimagenetでトレーニングされたモデルよりもオブジェクト中心ではない。
同じデータでトレーニングされた生成モデルは、粗いアウトライン、テクスチャ、色、方向といった、部分的にマスキングされたオブジェクトの単純な特性を外挿することに成功しました。
我々は他の2人の子供と実験を再現し、顕著に一貫した結果を得た。
広範に有用な高次視覚表現は、強い帰納バイアスを伴わずに、子供の視覚経験の代表例から頑健に学習できる。
関連論文リスト
- Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Self-supervised learning of video representations from a child's perspective [27.439294457852423]
子どもたちは、エゴセントリックな視覚経験から、周囲の強力な内部モデルを学びます。
そのような内部モデルは、高度に汎用的な学習アルゴリズムで子どもの視覚経験から学べるか、あるいは強い帰納的バイアスを必要とするのか?
論文 参考訳(メタデータ) (2024-02-01T03:27:26Z) - GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。
我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Vision Models Are More Robust And Fair When Pretrained On Uncurated
Images Without Supervision [38.22842778742829]
差別的な自己教師型学習は、インターネット画像の任意のランダムなグループでのトレーニングモデルを可能にする。
データ前処理や事前の仮定なしで、何十億ものランダムなイメージでモデルをトレーニングします。
フェアネス、分布シフト、地理的多様性、微粒化認識、画像コピー検出、および多くの画像分類データセットを含む50以上のベンチマークにおいて、我々のモデル性能を広範囲に研究し、検証した。
論文 参考訳(メタデータ) (2022-02-16T22:26:47Z) - DALL-Eval: Probing the Reasoning Skills and Social Biases of
Text-to-Image Generation Models [73.12069620086311]
テキスト・ツー・イメージ・モデルの視覚的推論能力と社会的バイアスについて検討する。
まず,物体認識,物体カウント,空間的関係理解という3つの視覚的推論スキルを計測する。
第2に、生成した画像の性別/肌の色調分布を測定することにより、性別と肌のトーンバイアスを評価する。
論文 参考訳(メタデータ) (2022-02-08T18:36:52Z) - Revisiting Weakly Supervised Pre-Training of Visual Perception Models [27.95816470075203]
大規模で弱い教師付き事前訓練は、完全に教師付きアプローチよりも優れている。
本稿では,ハッシュタグによるモデル事前学習の弱さを再考する。
本研究は,視覚認識システム開発における弱教師付き学習の活用について,説得力のある議論を提起する。
論文 参考訳(メタデータ) (2022-01-20T18:55:06Z) - Visual Distant Supervision for Scene Graph Generation [66.10579690929623]
シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。
本研究では,人間ラベルデータを用いずにシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。
包括的な実験結果から、我々の遠隔監視モデルは、弱い監督と半監督のベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-03-29T06:35:24Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Distilling Visual Priors from Self-Supervised Learning [24.79633121345066]
畳み込みニューラルネットワーク(CNN)は、小さなトレーニングデータセットに適合する傾向にある。
データ不足条件下での画像分類のためのCNNモデルの一般化能力を向上させるために,自己教師付き学習と知識蒸留を活用した2相パイプラインを提案する。
論文 参考訳(メタデータ) (2020-08-01T13:07:18Z) - A Computational Model of Early Word Learning from the Infant's Point of
View [15.443815646555125]
本研究では,親との遊戯中に幼児の学習者から収集したエゴセントリックな映像と視線データを用いた。
次に、畳み込みニューラルネットワーク(CNN)モデルを用いて、幼児の視点から感覚データを処理し、スクラッチから名前とオブジェクトの関連を学習した。
本研究は,幼児期の単語学習をシミュレートするために生のエゴセントリックビデオを利用する最初のモデルとして,早期語学習の問題を解くことができるという原理の証明を提供する。
論文 参考訳(メタデータ) (2020-06-04T12:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。