論文の概要: Caregiver Talk Shapes Toddler Vision: A Computational Study of Dyadic
Play
- arxiv url: http://arxiv.org/abs/2312.04118v2
- Date: Wed, 17 Jan 2024 09:43:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 19:48:38.143767
- Title: Caregiver Talk Shapes Toddler Vision: A Computational Study of Dyadic
Play
- Title(参考訳): 幼児の視覚を形作る介護者トーク--dyadic playの計算的研究
- Authors: Timothy Schauml\"offel, Arthur Aubret, Gemma Roig, Jochen Triesch
- Abstract要約: 本稿では, ディヤドプレイにおける視覚表現学習の計算モデルを提案する。
実介護者の統計値に一致した発話は, カテゴリー認識の改善を支援する表現を生じさせることを示す。
- 参考スコア(独自算出の注目度): 8.164232628099619
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Infants' ability to recognize and categorize objects develops gradually. The
second year of life is marked by both the emergence of more semantic visual
representations and a better understanding of word meaning. This suggests that
language input may play an important role in shaping visual representations.
However, even in suitable contexts for word learning like dyadic play sessions,
caregivers utterances are sparse and ambiguous, often referring to objects that
are different from the one to which the child attends. Here, we systematically
investigate to what extent caregivers' utterances can nevertheless enhance
visual representations. For this we propose a computational model of visual
representation learning during dyadic play. We introduce a synthetic dataset of
ego-centric images perceived by a toddler-agent that moves and rotates toy
objects in different parts of its home environment while hearing caregivers'
utterances, modeled as captions. We propose to model toddlers' learning as
simultaneously aligning representations for 1) close-in-time images and 2)
co-occurring images and utterances. We show that utterances with statistics
matching those of real caregivers give rise to representations supporting
improved category recognition. Our analysis reveals that a small
decrease/increase in object-relevant naming frequencies can drastically impact
the learned representations. This affects the attention on object names within
an utterance, which is required for efficient visuo-linguistic alignment.
Overall, our results support the hypothesis that caregivers' naming utterances
can improve toddlers' visual representations.
- Abstract(参考訳): 幼児は物体を認識し分類する能力が徐々に発達する。
人生の2年目は、より意味的な視覚表現の出現と、単語の意味のより深い理解が特徴である。
これは、言語入力が視覚的表現を形成する上で重要な役割を果たすことを示唆する。
しかし、dyadic play sessionのような単語学習に適した文脈であっても、養育者の発話はまばらで曖昧であり、しばしば子供が出席するものとは異なる対象を指す。
本稿では,介護者の発話が視覚表現をどの程度強化できるかを体系的に検討する。
そこで本研究では,ディヤドプレイにおける視覚表現学習の計算モデルを提案する。
本研究では,保育者の発話をキャプションとしてモデル化しながら,家庭環境の異なる場所でおもちゃの物体を移動・回転させる幼児エージェントが認識するエゴ中心画像の合成データセットを提案する。
幼児の学習を同時表現としてモデル化することを提案する。
1)クローズインタイム画像
2)画像と発話の共起。
実介護者の統計値に一致した発話は, カテゴリー認識の改善を支援する表現を生じさせることを示す。
分析の結果,オブジェクト関連命名頻度の減少/増加が学習表現に大きな影響を及ぼすことが明らかとなった。
これは発話中のオブジェクト名への注意に影響を与え、効率的なビズー言語的アライメントに必要となる。
全体として,介護者の命名発話が幼児の視覚表現を改善できるという仮説を支持する。
関連論文リスト
- A model of early word acquisition based on realistic-scale audiovisual naming events [10.047470656294333]
音声知覚入力における正規性からの統計的学習により,早期語が獲得できる範囲について検討した。
生音声の統計的規則性や画素レベルの視覚入力から学習するモデルを用いて,12ヵ月までの幼児の語学学習を現実的な環境でシミュレーションした。
以上の結果から, 幼児期と同等の語彙成長速度で, 単語の認識とそれに対応する視覚オブジェクトの関連付けを効果的に学習できることが示唆された。
論文 参考訳(メタデータ) (2024-06-07T21:05:59Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - Semantic Composition in Visually Grounded Language Models [0.0]
視覚的に接地された言語モデルは構成構造を表現するのに大きく失敗することを示す。
我々は新しい構成的視覚的質問応答ベンチマークであるWinogroundVQAを紹介する。
我々は、研究の神経科学、精神言語学、形式意味論、哲学との関連について論じる。
論文 参考訳(メタデータ) (2023-05-15T03:19:42Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Predicting Word Learning in Children from the Performance of Computer
Vision Systems [24.49899952381515]
本研究では,子どもが異なるカテゴリーの単語を習得する年齢が,視覚的分類とキャプションシステムの性能と相関していることを示す。
コンピュータビジョンシステムの性能は,子どもの単語学習の予測因子である単語の具体性についての人間の判断と相関する。
論文 参考訳(メタデータ) (2022-07-07T22:49:32Z) - Learnable Visual Words for Interpretable Image Recognition [70.85686267987744]
モデル予測動作を2つの新しいモジュールで解釈するLearable Visual Words (LVW)を提案する。
意味的な視覚的単語学習は、カテゴリ固有の制約を緩和し、異なるカテゴリ間で共有される一般的な視覚的単語を可能にする。
6つの視覚的ベンチマーク実験により,提案したLVWの精度とモデル解釈における優れた効果が示された。
論文 参考訳(メタデータ) (2022-05-22T03:24:45Z) - Embodied vision for learning object representations [4.211128681972148]
幼児の視覚的統計は、親しみやすい環境と新しい環境の両方において、物体認識の精度を向上させる。
この効果は、背景から抽出した特徴の減少、画像中の大きな特徴に対するニューラルネットワークバイアス、新奇な背景領域と慣れ親しんだ背景領域との類似性の向上によるものである、と我々は主張する。
論文 参考訳(メタデータ) (2022-05-12T16:36:27Z) - Consensus Graph Representation Learning for Better Grounded Image
Captioning [48.208119537050166]
本稿では,接地画像キャプションのためのConsensus Rraph Representation Learning framework(CGRL)を提案する。
Flickr30k Entitiesデータセットにおける対象幻覚(-9% CHAIRi)の顕著な減少とともに,本モデルの有効性を検証した。
論文 参考訳(メタデータ) (2021-12-02T04:17:01Z) - Using Diachronic Distributed Word Representations as Models of Lexical
Development in Children [0.0]
小児の語彙発達の時系列モデリングと分析を行うために,ダイアクロニック分散語表現を用いる。
子ども向け成人音声における語彙知識の飽和レベルと比較し,子どもの語彙知識の成長の動態を時間とともに示す。
論文 参考訳(メタデータ) (2021-05-11T14:44:05Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。