論文の概要: The BabyView dataset: High-resolution egocentric videos of infants' and young children's everyday experiences
- arxiv url: http://arxiv.org/abs/2406.10447v1
- Date: Fri, 14 Jun 2024 23:52:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 00:22:43.670390
- Title: The BabyView dataset: High-resolution egocentric videos of infants' and young children's everyday experiences
- Title(参考訳): BabyViewデータセット:幼児と幼児の日常体験の高精細なエゴセントリックなビデオ
- Authors: Bria Long, Violet Xiang, Stefan Stojanov, Robert Z. Sparks, Zi Yin, Grace E. Keene, Alvin W. M. Tan, Steven Y. Feng, Chengxu Zhuang, Virginia A. Marchman, Daniel L. K. Yamins, Michael C. Frank,
- Abstract要約: これまでで最大の開発中心のビデオデータセットであるBabyViewデータセットをリリースしています。
この493時間のデータセットには、6ヶ月から5歳までの子どもの、長手、家庭、および就学前の環境のエゴセントリックなビデオが含まれています。
我々は,自己教師型言語と視覚モデルを訓練し,構文構造学習,物体認識,深度推定,画像セグメント化などのアウト・オブ・ディストリビューションタスクへの伝達を評価する。
- 参考スコア(独自算出の注目度): 8.952954042940368
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Human children far exceed modern machine learning algorithms in their sample efficiency, achieving high performance in key domains with much less data than current models. This ''data gap'' is a key challenge both for building intelligent artificial systems and for understanding human development. Egocentric video capturing children's experience -- their ''training data'' -- is a key ingredient for comparison of humans and models and for the development of algorithmic innovations to bridge this gap. Yet there are few such datasets available, and extant data are low-resolution, have limited metadata, and importantly, represent only a small set of children's experiences. Here, we provide the first release of the largest developmental egocentric video dataset to date -- the BabyView dataset -- recorded using a high-resolution camera with a large vertical field-of-view and gyroscope/accelerometer data. This 493 hour dataset includes egocentric videos from children spanning 6 months - 5 years of age in both longitudinal, at-home contexts and in a preschool environment. We provide gold-standard annotations for the evaluation of speech transcription, speaker diarization, and human pose estimation, and evaluate models in each of these domains. We train self-supervised language and vision models and evaluate their transfer to out-of-distribution tasks including syntactic structure learning, object recognition, depth estimation, and image segmentation. Although performance in each scales with dataset size, overall performance is relatively lower than when models are trained on curated datasets, especially in the visual domain. Our dataset stands as an open challenge for robust, humanlike AI systems: how can such systems achieve human-levels of success on the same scale and distribution of training data as humans?
- Abstract(参考訳): 人間の子供たちは、サンプル効率において最新の機械学習アルゴリズムをはるかに上回り、現在のモデルよりもはるかに少ないデータを持つキードメインで高いパフォーマンスを達成する。
この「データギャップ」は、インテリジェントな人工システムの構築と人間の開発を理解するための鍵となる課題である。
Egocentric video capture children's experience -- their 'training data' -- は、人間とモデルの比較と、このギャップを埋めるアルゴリズム的イノベーションの開発のための重要な要素である。
しかし、そのようなデータセットはほとんど存在せず、既存のデータは解像度が低く、メタデータが限られており、重要なことに、子供の小さな経験しか表現していない。
ここでは、大規模な垂直視野とジャイロスコープ/加速度計データを備えた高解像度カメラを使用して記録された、これまでで最大の開発中心のビデオデータセットであるBabyViewデータセットの最初のリリースを提供する。
この493時間のデータセットには、6ヶ月から5歳までの子どもの、長手、家庭、および就学前の環境のエゴセントリックなビデオが含まれています。
音声の書き起こし、話者ダイアリゼーション、人間のポーズ推定の評価のためのゴールドスタンダードアノテーションを提供し、これらのドメインのモデルを評価する。
我々は,自己教師型言語と視覚モデルを訓練し,構文構造学習,物体認識,深度推定,画像セグメント化などのアウト・オブ・ディストリビューションタスクへの伝達を評価する。
データセットサイズを持つ各スケールのパフォーマンスは、特にビジュアルドメインにおいて、モデルがトレーニングされたデータセットでトレーニングされる場合よりも、全体的なパフォーマンスは比較的低い。
私たちのデータセットは、堅牢で人間らしいAIシステムにとって、オープンな課題である。
関連論文リスト
- Is Child-Directed Speech Effective Training Data for Language Models? [34.46268640655943]
GPT-2 と RoBERTa モデルを英語の子供指向音声の29万語で学習する。
子どものトレーニングデータのグローバルな発達順序付けやローカルな談話順序付けが、他のデータセットと比較して高いパフォーマンスを支えているかどうかを検証する。
これらの結果は、より良いデータから進むのではなく、子供の学習アルゴリズムが現在の言語モデリング技術よりもはるかにデータ効率が高いという仮説を支持している。
論文 参考訳(メタデータ) (2024-08-07T08:18:51Z) - The Brain's Bitter Lesson: Scaling Speech Decoding With Self-Supervised Learning [3.649801602551928]
我々は、異種録音からの学習を表現するために、神経科学にインスパイアされた自己教師対象のセットをニューラルネットワークとともに開発する。
その結果、これらの目的によって学習された表現は、データとともにスケールし、主題、データセット、タスクをまたいで一般化し、同等の自己監督的アプローチを上回ります。
論文 参考訳(メタデータ) (2024-06-06T17:59:09Z) - Data Augmentation in Human-Centric Vision [54.97327269866757]
本研究では,人間中心型視覚タスクにおけるデータ拡張手法の包括的分析を行う。
それは、人物のReID、人間のパーシング、人間のポーズ推定、歩行者検出など、幅広い研究領域に展開している。
我々の研究は、データ拡張手法をデータ生成とデータ摂動の2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-03-13T16:05:18Z) - Self-supervised learning of video representations from a child's perspective [27.439294457852423]
子どもたちは、エゴセントリックな視覚経験から、周囲の強力な内部モデルを学びます。
そのような内部モデルは、高度に汎用的な学習アルゴリズムで子どもの視覚経験から学べるか、あるいは強い帰納的バイアスを必要とするのか?
論文 参考訳(メタデータ) (2024-02-01T03:27:26Z) - Learning Human Action Recognition Representations Without Real Humans [66.61527869763819]
そこで本研究では,仮想人間を含む合成データを用いて,実世界の映像を活用してモデルを事前学習するベンチマークを提案する。
次に、このデータに基づいて学習した表現を、下流行動認識ベンチマークの様々なセットに転送可能であるかを評価する。
私たちのアプローチは、以前のベースラインを最大5%上回ります。
論文 参考訳(メタデータ) (2023-11-10T18:38:14Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - StyleGAN-Human: A Data-Centric Odyssey of Human Generation [96.7080874757475]
この研究は、データ中心の観点から、"データエンジニアリング"における複数の重要な側面を調査します。
さまざまなポーズやテクスチャを抽出した230万以上のサンプルで、大規模な人間の画像データセットを収集し、注釈付けします。
本稿では,データサイズ,データ分布,データアライメントといった,スタイルGANに基づく人為的生成のためのデータ工学における3つの重要な要素について精査する。
論文 参考訳(メタデータ) (2022-04-25T17:55:08Z) - On The State of Data In Computer Vision: Human Annotations Remain
Indispensable for Developing Deep Learning Models [0.0]
高品質ラベル付きデータセットは機械学習(ML)の発展に重要な役割を果たす
2012年にImageNetデータセットとAlexNetモデルが登場して以来、新しいオープンソースのラベル付きビジョンデータセットのサイズはほぼ一定である。
コンピュータビジョンコミュニティの少数の出版物は、Imagenetよりも桁違いの大きさのデータセットの教師付き学習に取り組む。
論文 参考訳(メタデータ) (2021-07-31T00:08:21Z) - REGRAD: A Large-Scale Relational Grasp Dataset for Safe and
Object-Specific Robotic Grasping in Clutter [52.117388513480435]
本稿では,オブジェクト間の関係のモデル化を継続するregradという新しいデータセットを提案する。
データセットは2D画像と3Dポイントクラウドの両方で収集されます。
ユーザは、好きなだけ多くのデータを生成するために、自由に独自のオブジェクトモデルをインポートできる。
論文 参考訳(メタデータ) (2021-04-29T05:31:21Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。