論文の概要: Self-supervised learning of video representations from a child's perspective
- arxiv url: http://arxiv.org/abs/2402.00300v3
- Date: Wed, 16 Oct 2024 19:10:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:17:40.024654
- Title: Self-supervised learning of video representations from a child's perspective
- Title(参考訳): 子どもの視点から見た映像表現の自己指導型学習
- Authors: A. Emin Orhan, Wentao Wang, Alex N. Wang, Mengye Ren, Brenden M. Lake,
- Abstract要約: 子どもたちは、エゴセントリックな視覚経験から、周囲の強力な内部モデルを学びます。
そのような内部モデルは、高度に汎用的な学習アルゴリズムで子どもの視覚経験から学べるか、あるいは強い帰納的バイアスを必要とするのか?
- 参考スコア(独自算出の注目度): 27.439294457852423
- License:
- Abstract: Children learn powerful internal models of the world around them from a few years of egocentric visual experience. Can such internal models be learned from a child's visual experience with highly generic learning algorithms or do they require strong inductive biases? Recent advances in collecting large-scale, longitudinal, developmentally realistic video datasets and generic self-supervised learning (SSL) algorithms are allowing us to begin to tackle this nature vs. nurture question. However, existing work typically focuses on image-based SSL algorithms and visual capabilities that can be learned from static images (e.g. object recognition), thus ignoring temporal aspects of the world. To close this gap, here we train self-supervised video models on longitudinal, egocentric headcam recordings collected from a child over a two year period in their early development (6-31 months). The resulting models are highly effective at facilitating the learning of action concepts from a small number of labeled examples; they have favorable data size scaling properties; and they display emergent video interpolation capabilities. Video models also learn more accurate and more robust object representations than image-based models trained with the exact same data. These results suggest that important temporal aspects of a child's internal model of the world may be learnable from their visual experience using highly generic learning algorithms and without strong inductive biases.
- Abstract(参考訳): 子どもたちは、エゴセントリックな視覚経験から、周囲の強力な内部モデルを学びます。
そのような内部モデルは、高度に汎用的な学習アルゴリズムで子どもの視覚経験から学べるか、あるいは強い帰納的バイアスを必要とするのか?
近年,大規模で縦断的,発展的なビデオデータセットの収集や,汎用的な自己教師付き学習(SSL)アルゴリズムの進歩により,この問題に対処し始めることができるようになっている。
しかし、既存の研究は通常、静的画像(例えばオブジェクト認識)から学習できる画像ベースのSSLアルゴリズムと視覚能力に焦点を当てており、世界の時間的側面を無視している。
このギャップを埋めるために、私たちは、幼児の初期(6~31ヶ月)の2年間に収集した縦型、自家中心型ヘッドカム記録に基づいて、自己監督型ビデオモデルを訓練する。
得られたモデルは、少数のラベル付き例からアクション概念の学習を容易にするのに非常に効果的である。
ビデオモデルは、全く同じデータで訓練された画像ベースモデルよりも、より正確で堅牢なオブジェクト表現を学習する。
これらの結果は、子どもの内部モデルにおける重要な時間的側面が、高度に汎用的な学習アルゴリズムを用いて視覚経験から学習可能であり、強い帰納的バイアスがないことを示唆している。
関連論文リスト
- The BabyView dataset: High-resolution egocentric videos of infants' and young children's everyday experiences [8.952954042940368]
これまでで最大の開発中心のビデオデータセットであるBabyViewデータセットをリリースしています。
この493時間のデータセットには、6ヶ月から5歳までの子どもの、長手、家庭、および就学前の環境のエゴセントリックなビデオが含まれています。
我々は,自己教師型言語と視覚モデルを訓練し,構文構造学習,物体認識,深度推定,画像セグメント化などのアウト・オブ・ディストリビューションタスクへの伝達を評価する。
論文 参考訳(メタデータ) (2024-06-14T23:52:27Z) - A Vision Check-up for Language Models [61.852026871772914]
テキストのモデルを用いて、予備的な視覚表現学習システムをどのように訓練するかを示す。
自己教師付き視覚表現学習の実験は、自然画像のセマンティックアセスメントを行うことができる視覚モデルを訓練する可能性を強調している。
論文 参考訳(メタデータ) (2024-01-03T18:09:33Z) - Learning high-level visual representations from a child's perspective
without strong inductive biases [21.466000613898988]
我々は、子どもの視覚体験のリアルなプロキシ上で、明示的な監督なしに最先端のニューラルネットワークを訓練する。
埋め込みモデルと生成モデルの両方を、1人の子供から200時間のヘッドカムビデオでトレーニングします。
同じデータで訓練された生成モデルは、部分的にマスキングされたオブジェクトの単純な性質を外挿することに成功しました。
論文 参考訳(メタデータ) (2023-05-24T17:26:59Z) - How Would The Viewer Feel? Estimating Wellbeing From Video Scenarios [73.24092762346095]
情緒応答と主観的幸福感に注釈を付けた6万本以上のビデオを備えた大規模データセットを2つ導入した。
Video Cognitive Empathyデータセットには、微粒な感情応答の分布のためのアノテーションが含まれており、モデルが感情状態の詳細な理解を得ることができる。
Video to Valenceデータセットには、ビデオ間の相対的な快適性のアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-10-18T17:58:25Z) - Self-Supervised Learning for Videos: A Survey [70.37277191524755]
自己教師型学習は、画像ドメインとビデオドメインの両方で有望である。
本稿では,ビデオ領域に着目した自己教師型学習における既存のアプローチについて概観する。
論文 参考訳(メタデータ) (2022-06-18T00:26:52Z) - iBoot: Image-bootstrapped Self-Supervised Video Representation Learning [45.845595749486215]
ビデオデータセットは通常、画像データセットほど大きくない。
本稿では,映像表現学習フレームワークにおいて,自己や言語を事前訓練した強力な画像ベースモデルを提案する。
提案アルゴリズムはより少ないエポックと少ないバッチでより効率的に学習できることが示されている。
論文 参考訳(メタデータ) (2022-06-16T17:42:48Z) - Embodied vision for learning object representations [4.211128681972148]
幼児の視覚的統計は、親しみやすい環境と新しい環境の両方において、物体認識の精度を向上させる。
この効果は、背景から抽出した特徴の減少、画像中の大きな特徴に対するニューラルネットワークバイアス、新奇な背景領域と慣れ親しんだ背景領域との類似性の向上によるものである、と我々は主張する。
論文 参考訳(メタデータ) (2022-05-12T16:36:27Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z) - Curious Representation Learning for Embodied Intelligence [81.21764276106924]
近年,自己指導型表現学習は顕著な成功を収めている。
しかし、真にインテリジェントなエージェントを構築するためには、環境から学習できる表現学習アルゴリズムを構築する必要がある。
本稿では,強化学習方針と視覚的表現モデルを同時に学習する,好奇心をそそる表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-03T17:59:20Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - A Computational Model of Early Word Learning from the Infant's Point of
View [15.443815646555125]
本研究では,親との遊戯中に幼児の学習者から収集したエゴセントリックな映像と視線データを用いた。
次に、畳み込みニューラルネットワーク(CNN)モデルを用いて、幼児の視点から感覚データを処理し、スクラッチから名前とオブジェクトの関連を学習した。
本研究は,幼児期の単語学習をシミュレートするために生のエゴセントリックビデオを利用する最初のモデルとして,早期語学習の問題を解くことができるという原理の証明を提供する。
論文 参考訳(メタデータ) (2020-06-04T12:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。