論文の概要: ChildPlay: A New Benchmark for Understanding Children's Gaze Behaviour
- arxiv url: http://arxiv.org/abs/2307.01630v1
- Date: Tue, 4 Jul 2023 10:26:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 17:29:19.321036
- Title: ChildPlay: A New Benchmark for Understanding Children's Gaze Behaviour
- Title(参考訳): ChildPlay: 子どもの視線行動を理解するための新しいベンチマーク
- Authors: Samy Tafasca, Anshul Gupta, Jean-Marc Odobez
- Abstract要約: 本研究は、子どもの視線目標と相互作用する大人の視線目標を予測するための最初の研究である。
コントロールされていない環境で大人と遊んだり、交流したりした子どもたちを対象とする、短いビデオクリップのキュレートされたコレクションであるChildPlayデータセットを紹介した。
本研究では,3次元視野におけるシーン部分を明確に識別することで,幾何学的にグラウンド化された視線目標予測のための新しいモデルを提案する。
- 参考スコア(独自算出の注目度): 18.885623017619988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gaze behaviors such as eye-contact or shared attention are important markers
for diagnosing developmental disorders in children. While previous studies have
looked at some of these elements, the analysis is usually performed on private
datasets and is restricted to lab settings. Furthermore, all publicly available
gaze target prediction benchmarks mostly contain instances of adults, which
makes models trained on them less applicable to scenarios with young children.
In this paper, we propose the first study for predicting the gaze target of
children and interacting adults. To this end, we introduce the ChildPlay
dataset: a curated collection of short video clips featuring children playing
and interacting with adults in uncontrolled environments (e.g. kindergarten,
therapy centers, preschools etc.), which we annotate with rich gaze
information. We further propose a new model for gaze target prediction that is
geometrically grounded by explicitly identifying the scene parts in the 3D
field of view (3DFoV) of the person, leveraging recent geometry preserving
depth inference methods. Our model achieves state of the art results on
benchmark datasets and ChildPlay. Furthermore, results show that looking at
faces prediction performance on children is much worse than on adults, and can
be significantly improved by fine-tuning models using child gaze annotations.
Our dataset and models will be made publicly available.
- Abstract(参考訳): 子どもの発達障害を診断するための重要なマーカーは、アイコンタクトや共有注意などの迷路行動である。
これまでの研究ではこれらの要素のいくつかを検討したが、分析は通常プライベートデータセット上で行われ、実験室の設定に限定されている。
さらに、すべての一般公開された視線目標予測ベンチマークには、主に大人のインスタンスが含まれており、幼児のシナリオに適用できないようにトレーニングされたモデルが採用されている。
本稿では,子どもの視線目標と相互作用する大人の視線目標を予測するための最初の研究を提案する。
この目的のために,子どもがコントロールされていない環境(幼稚園,セラピーセンター,保育園など)で大人と遊んで交流する様子を収録した短いビデオクリップのキュレートされたコレクションであるChildPlayデータセットを紹介した。
さらに,人物の3次元視野(3dfov)のシーン部分を明確に識別し,近年の奥行き推定法を活用し,視線目標予測のための新しいモデルを提案する。
我々のモデルは、ベンチマークデータセットとChildPlayのアート結果の状態を達成します。
また, 子どもの表情予測性能は, 成人よりもずっと悪く, 子どもの視線アノテーションを用いた微調整モデルにより有意に改善できることが示された。
私たちのデータセットとモデルは公開されます。
関連論文リスト
- Challenges in Video-Based Infant Action Recognition: A Critical
Examination of the State of the Art [9.327466428403916]
InfActPrimitive’という,5つの重要な幼児マイルストーンアクションカテゴリを含む,画期的なデータセットを紹介します。
近縁骨格に基づく行動認識モデルを用いた広範囲な比較分析を行う。
以上の結果から,PoseC3Dモデルでは約71%の精度で高い精度を達成できたが,残りのモデルでは乳幼児行動の動態を正確に把握することが困難であった。
論文 参考訳(メタデータ) (2023-11-21T02:36:47Z) - 3DGazeNet: Generalizing Gaze Estimation with Weak-Supervision from
Synthetic Views [67.00931529296788]
本稿では,適応を伴わない新しい環境に直接適用可能な一般的な視線推定モデルを訓練することを提案する。
視覚的擬似アノテーションを用いた多彩な顔の大規模データセットを作成し、シーンの3次元形状に基づいて抽出する。
本研究では,本手法を視線一般化タスクにおいて検証し,真理データが得られない場合の最先端技術と比較して最大30%の改善を実証する。
論文 参考訳(メタデータ) (2022-12-06T14:15:17Z) - Embodied vision for learning object representations [4.211128681972148]
幼児の視覚的統計は、親しみやすい環境と新しい環境の両方において、物体認識の精度を向上させる。
この効果は、背景から抽出した特徴の減少、画像中の大きな特徴に対するニューラルネットワークバイアス、新奇な背景領域と慣れ親しんだ背景領域との類似性の向上によるものである、と我々は主張する。
論文 参考訳(メタデータ) (2022-05-12T16:36:27Z) - StyleGAN-Human: A Data-Centric Odyssey of Human Generation [96.7080874757475]
この研究は、データ中心の観点から、"データエンジニアリング"における複数の重要な側面を調査します。
さまざまなポーズやテクスチャを抽出した230万以上のサンプルで、大規模な人間の画像データセットを収集し、注釈付けします。
本稿では,データサイズ,データ分布,データアライメントといった,スタイルGANに基づく人為的生成のためのデータ工学における3つの重要な要素について精査する。
論文 参考訳(メタデータ) (2022-04-25T17:55:08Z) - Adults as Augmentations for Children in Facial Emotion Recognition with
Contrastive Learning [1.0323063834827415]
本研究では,子どもの表情認識におけるデータ不足を克服するために,データ強化に基づくコントラスト学習の適用について検討した。
成人の表情画像と子どもの表情画像とを併用する方法について検討した。
論文 参考訳(メタデータ) (2022-02-10T17:43:11Z) - FP-Age: Leveraging Face Parsing Attention for Facial Age Estimation in
the Wild [50.8865921538953]
年齢推定に顔のセマンティクスを明示的に組み込む手法を提案する。
我々は,顔解析に基づくネットワークを設計し,異なるスケールで意味情報を学習する。
提案手法は,既存の年齢推定手法を常に上回っていることを示す。
論文 参考訳(メタデータ) (2021-06-21T14:31:32Z) - Pre-training strategies and datasets for facial representation learning [58.8289362536262]
いくつかの顔分析タスクやデータセットに適用可能な普遍的な顔表現の探索方法を示す。
顔に適応する2つの大規模表現学習を体系的に検討する。
私たちの主な2つの発見は以下の通りです: 完全にインザワイルドな未処理データに対する教師なし事前トレーニングは一貫性を提供し、場合によっては大幅な精度向上をもたらします。
論文 参考訳(メタデータ) (2021-03-30T17:57:25Z) - Visual Distant Supervision for Scene Graph Generation [66.10579690929623]
シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。
本研究では,人間ラベルデータを用いずにシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。
包括的な実験結果から、我々の遠隔監視モデルは、弱い監督と半監督のベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-03-29T06:35:24Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Minor Privacy Protection Through Real-time Video Processing at the Edge [4.4243708797335115]
本稿では,エッジ監視システムに手頃な軽量ソリューションについて検討する。
パイプラインは入力フレームから顔を取り出し、それぞれを大人または子供に分類する。
本稿では,他の顔認識による児童検出手法と比較して,分類精度92.1%のモデルが優れていることを示す。
論文 参考訳(メタデータ) (2020-05-03T20:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。