論文の概要: Assessing the alignment between infants' visual and linguistic experience using multimodal language models
- arxiv url: http://arxiv.org/abs/2511.18824v1
- Date: Mon, 24 Nov 2025 06:58:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.062928
- Title: Assessing the alignment between infants' visual and linguistic experience using multimodal language models
- Title(参考訳): 多モーダル言語モデルを用いた幼児の視覚経験と言語経験の整合性の評価
- Authors: Alvin Wei Ming Tan, Jane Yang, Tarun Sepuri, Khai Loong Aw, Robert Z. Sparks, Zi Yin, Virginia A. Marchman, Michael C. Frank, Bria Long,
- Abstract要約: 日常学習における子どもの視覚的・言語的経験と時間的整合性について
学習のための理想化された整列モーメントは、現代の機械学習データセットと比較して、子供の日常体験において比較的稀であることを示す。
これらの結果から, 単語学習を記述したモデルでは, 頻繁なアライメントが制約であることが示唆された。
- 参考スコア(独自算出の注目度): 2.275358921334511
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Figuring out which objects or concepts words refer to is a central language learning challenge for young children. Most models of this process posit that children learn early object labels from co-occurrences of words and their referents that occur when someone around them talks about an object in the immediate physical environment. But how aligned in time are children's visual and linguistic experiences during everyday learning? To date, answers to this question have been limited by the need for labor-intensive manual annotations of vision-language co-occurrences. Here, we evaluate the use of contrastive language-image pretraining (CLIP) models to automatically characterize vision-language alignment in egocentric videos taken from the infant perspective in home environments. After validating CLIP alignment scores using human alignment judgments, we apply this metric to a large corpus of infant-perspective videos. We show that idealized aligned moments for learning (e.g., "look at the ball" with a ball present in the child's view) are relatively rare in children's everyday experiences compared to modern machine learning datasets, and highlight variability in alignment both within and across children. These findings suggest that infrequent alignment is a constraint for models describing early word learning and offer a new method for investigating children's multimodal environment.
- Abstract(参考訳): どの物体や言葉が参照するかを判断することは、幼児にとって中心的な言語学習課題である。
このプロセスのほとんどのモデルは、子どもたちが、周囲の誰かが身近な物理的環境の中でオブジェクトについて話しているときに起こる単語とその参照から、早期のオブジェクトラベルを学ぶことを示唆している。
しかし、日常的な学習における子どもの視覚的・言語的経験はどのように一致しているか?
これまでのところ、この質問に対する回答は、視覚言語共起の労働集約的な手動アノテーションの必要性によって制限されてきた。
そこで本研究では,幼児の視点から撮影したエゴセントリックビデオにおいて,視覚言語アライメントを自動的に特徴付けるために,コントラッシブ言語画像事前学習(CLIP)モデルを用いて評価する。
ヒトのアライメント判定を用いてCLIPアライメントスコアを検証した後、この指標を乳幼児向けビデオの大規模なコーパスに適用する。
本研究は, 子どもの日常体験において, 現代の機械学習データセットと比較して, 学習のための理想化されたアライメント・モーメント(例えば, 子どもの視点でボールを見る)が比較的稀であることを示し, 子どもの内外におけるアライメントの多様性を強調した。
これらの結果から, 頻繁なアライメントは, 早期語学学習を記述するモデルの制約であり, 子どものマルチモーダル環境を調査するための新しい手法を提供する可能性が示唆された。
関連論文リスト
- Discovering Hidden Visual Concepts Beyond Linguistic Input in Infant Learning [18.43931715859825]
コンピュータビジョンが人間の視覚システムを再現しようとすると、幼児の視覚発達を理解することは貴重な洞察を与えるかもしれない。
本稿では,この問題を探求する学際的研究について述べる。
Vongらによる最近発表されたScienceのモデルを分析する。
これらのニューロンは、モデルの本来の語彙を超えた物体を認識できることを実証する。
論文 参考訳(メタデータ) (2025-01-09T12:55:55Z) - Visually Grounded Language Learning: a review of language games,
datasets, tasks, and models [60.2604624857992]
多くのVision+Language (V+L)タスクは、視覚的モダリティでシンボルをグラウンドできるモデルを作成することを目的として定義されている。
本稿では,V+L分野において提案されるいくつかの課題とモデルについて,系統的な文献レビューを行う。
論文 参考訳(メタデータ) (2023-12-05T02:17:29Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - BabySLM: language-acquisition-friendly benchmark of self-supervised
spoken language models [56.93604813379634]
音声表現を学習するための自己指導技術は、人間のラベルを必要とせずに、音声への露出から言語能力を高めることが示されている。
語彙および構文レベルで音声言語モデルを探索するために,言語習得に親しみやすいベンチマークを提案する。
テキストと音声のギャップを埋めることと、クリーンな音声とその内話のギャップを埋めることである。
論文 参考訳(メタデータ) (2023-06-02T12:54:38Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Word Acquisition in Neural Language Models [0.38073142980733]
ニューラルネットワークモデルは,学習中に個々の単語を習得し,学習曲線を抽出し,600以上の単語の獲得年齢を推定する。
子どもや言語モデルでは, 具体性, 単語長, 語彙クラスの影響が顕著に異なることがわかった。
論文 参考訳(メタデータ) (2021-10-05T23:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。