Fugu-MT 論文翻訳(概要): ChildPlay: A New Benchmark for Understanding Children's Gaze Behaviour

論文の概要: ChildPlay: A New Benchmark for Understanding Children's Gaze Behaviour

arxiv url: http://arxiv.org/abs/2307.01630v1
Date: Tue, 4 Jul 2023 10:26:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-06 17:29:19.321036
Title: ChildPlay: A New Benchmark for Understanding Children's Gaze Behaviour
Title（参考訳）: ChildPlay: 子どもの視線行動を理解するための新しいベンチマーク
Authors: Samy Tafasca, Anshul Gupta, Jean-Marc Odobez
Abstract要約: 本研究は、子どもの視線目標と相互作用する大人の視線目標を予測するための最初の研究である。コントロールされていない環境で大人と遊んだり、交流したりした子どもたちを対象とする、短いビデオクリップのキュレートされたコレクションであるChildPlayデータセットを紹介した。本研究では,3次元視野におけるシーン部分を明確に識別することで,幾何学的にグラウンド化された視線目標予測のための新しいモデルを提案する。
参考スコア（独自算出の注目度）: 18.885623017619988
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Gaze behaviors such as eye-contact or shared attention are important markers for diagnosing developmental disorders in children. While previous studies have looked at some of these elements, the analysis is usually performed on private datasets and is restricted to lab settings. Furthermore, all publicly available gaze target prediction benchmarks mostly contain instances of adults, which makes models trained on them less applicable to scenarios with young children. In this paper, we propose the first study for predicting the gaze target of children and interacting adults. To this end, we introduce the ChildPlay dataset: a curated collection of short video clips featuring children playing and interacting with adults in uncontrolled environments (e.g. kindergarten, therapy centers, preschools etc.), which we annotate with rich gaze information. We further propose a new model for gaze target prediction that is geometrically grounded by explicitly identifying the scene parts in the 3D field of view (3DFoV) of the person, leveraging recent geometry preserving depth inference methods. Our model achieves state of the art results on benchmark datasets and ChildPlay. Furthermore, results show that looking at faces prediction performance on children is much worse than on adults, and can be significantly improved by fine-tuning models using child gaze annotations. Our dataset and models will be made publicly available.
Abstract（参考訳）: 子どもの発達障害を診断するための重要なマーカーは、アイコンタクトや共有注意などの迷路行動である。これまでの研究ではこれらの要素のいくつかを検討したが、分析は通常プライベートデータセット上で行われ、実験室の設定に限定されている。さらに、すべての一般公開された視線目標予測ベンチマークには、主に大人のインスタンスが含まれており、幼児のシナリオに適用できないようにトレーニングされたモデルが採用されている。本稿では,子どもの視線目標と相互作用する大人の視線目標を予測するための最初の研究を提案する。この目的のために,子どもがコントロールされていない環境(幼稚園,セラピーセンター,保育園など)で大人と遊んで交流する様子を収録した短いビデオクリップのキュレートされたコレクションであるChildPlayデータセットを紹介した。さらに,人物の3次元視野(3dfov)のシーン部分を明確に識別し,近年の奥行き推定法を活用し,視線目標予測のための新しいモデルを提案する。我々のモデルは、ベンチマークデータセットとChildPlayのアート結果の状態を達成します。また, 子どもの表情予測性能は, 成人よりもずっと悪く, 子どもの視線アノテーションを用いた微調整モデルにより有意に改善できることが示された。私たちのデータセットとモデルは公開されます。

関連論文リスト

Scalable Early Childhood Reading Performance Prediction [5.413138072912236]
将来の読み出し性能をモデル化し予測するための適切な教育データセットは存在しない。本稿では,拡張コア読み取り命令ECRIデータセットを紹介する。我々は、このデータセットを活用して、幼児期の教育パターンを認識する最先端の機械学習モデルの有効性を実証的に評価する。
論文参考訳（メタデータ） (2024-12-05T18:59:50Z)
Toddlers' Active Gaze Behavior Supports Self-Supervised Object Learning [4.612042044544857]
幼児は、ほとんど監督することなく、異なる視点からオブジェクトを認識することを学ぶ。近年の研究では、幼児はオブジェクトと対話しながら、近い時間に視覚的な入力を類似の表現にマッピングすることで、この能力を発達させると主張している。幼児が対象表現の学習を支援するために、これらの眼球運動を通して視覚経験をキュレートするかどうかは不明である。
論文参考訳（メタデータ） (2024-11-04T10:44:46Z)
KidLM: Advancing Language Models for Children -- Early Insights and Future Directions [7.839083566878183]
本研究では,子供用,時には子供用のコーパスを収集し,検証する,ユーザ中心のデータ収集パイプラインを提案する。本研究では,ドメイン固有の児童言語データに基づいてマスキング確率を動的に調整する新たな学習目標であるStratified Maskingを提案する。実験により,本モデルは下級テキストの理解に優れ,ステレオタイプを避けて安全性を維持し,子どもの独特な嗜好を捉えていることが示された。
論文参考訳（メタデータ） (2024-10-04T19:35:44Z)
ChildPlay-Hand: A Dataset of Hand Manipulations in the Wild [11.306212771477645]
ChildPlay-Handは、人とオブジェクトのバウンディングボックスと操作アクションを含む、新しいデータセットである。操作アクションは、把握、保持、操作、および異なるタイプのリリースなど、HOIサイクルのメインステージをカバーする。我々は,様々な時間的・分節ネットワークをベンチマークし,身体と手領域の情報を探索し,ポーズとRGBのモダリティを比較した。
論文参考訳（メタデータ） (2024-09-14T05:35:46Z)
ToddlerAct: A Toddler Action Recognition Dataset for Gross Motor Development Assessment [26.16139407666899]
ToddlerActは幼児の運動行動認識データセットである。本稿では,データ収集プロセス,アノテーション方法論,データセットの特徴について述べる。本研究は,幼児期における運動機能発達の正確性を評価するための領域特異的データセットの重要性を明らかにするものである。
論文参考訳（メタデータ） (2024-08-31T04:31:46Z)
The BabyView dataset: High-resolution egocentric videos of infants' and young children's everyday experiences [8.952954042940368]
これまでで最大の開発中心のビデオデータセットであるBabyViewデータセットをリリースしています。この493時間のデータセットには、6ヶ月から5歳までの子どもの、長手、家庭、および就学前の環境のエゴセントリックなビデオが含まれています。我々は,自己教師型言語と視覚モデルを訓練し,構文構造学習,物体認識,深度推定,画像セグメント化などのアウト・オブ・ディストリビューションタスクへの伝達を評価する。
論文参考訳（メタデータ） (2024-06-14T23:52:27Z)
3DGazeNet: Generalizing Gaze Estimation with Weak-Supervision from Synthetic Views [67.00931529296788]
本稿では,適応を伴わない新しい環境に直接適用可能な一般的な視線推定モデルを訓練することを提案する。視覚的擬似アノテーションを用いた多彩な顔の大規模データセットを作成し、シーンの3次元形状に基づいて抽出する。本研究では,本手法を視線一般化タスクにおいて検証し,真理データが得られない場合の最先端技術と比較して最大30%の改善を実証する。
論文参考訳（メタデータ） (2022-12-06T14:15:17Z)
StyleGAN-Human: A Data-Centric Odyssey of Human Generation [96.7080874757475]
この研究は、データ中心の観点から、"データエンジニアリング"における複数の重要な側面を調査します。さまざまなポーズやテクスチャを抽出した230万以上のサンプルで、大規模な人間の画像データセットを収集し、注釈付けします。本稿では,データサイズ,データ分布,データアライメントといった,スタイルGANに基づく人為的生成のためのデータ工学における3つの重要な要素について精査する。
論文参考訳（メタデータ） (2022-04-25T17:55:08Z)
FP-Age: Leveraging Face Parsing Attention for Facial Age Estimation in the Wild [50.8865921538953]
年齢推定に顔のセマンティクスを明示的に組み込む手法を提案する。我々は,顔解析に基づくネットワークを設計し,異なるスケールで意味情報を学習する。提案手法は,既存の年齢推定手法を常に上回っていることを示す。
論文参考訳（メタデータ） (2021-06-21T14:31:32Z)
Pre-training strategies and datasets for facial representation learning [58.8289362536262]
いくつかの顔分析タスクやデータセットに適用可能な普遍的な顔表現の探索方法を示す。顔に適応する2つの大規模表現学習を体系的に検討する。私たちの主な2つの発見は以下の通りです: 完全にインザワイルドな未処理データに対する教師なし事前トレーニングは一貫性を提供し、場合によっては大幅な精度向上をもたらします。
論文参考訳（メタデータ） (2021-03-30T17:57:25Z)
Visual Distant Supervision for Scene Graph Generation [66.10579690929623]
シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。本研究では,人間ラベルデータを用いずにシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。包括的な実験結果から、我々の遠隔監視モデルは、弱い監督と半監督のベースラインよりも優れています。
論文参考訳（メタデータ） (2021-03-29T06:35:24Z)
What Can You Learn from Your Muscles? Learning Visual Representation from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文参考訳（メタデータ） (2020-10-16T17:46:53Z)
Minor Privacy Protection Through Real-time Video Processing at the Edge [4.4243708797335115]
本稿では,エッジ監視システムに手頃な軽量ソリューションについて検討する。パイプラインは入力フレームから顔を取り出し、それぞれを大人または子供に分類する。本稿では,他の顔認識による児童検出手法と比較して,分類精度92.1%のモデルが優れていることを示す。
論文参考訳（メタデータ） (2020-05-03T20:19:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。