論文の概要: On the robustness of modeling grounded word learning through a child's egocentric input
- arxiv url: http://arxiv.org/abs/2507.14749v1
- Date: Sat, 19 Jul 2025 20:55:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.035736
- Title: On the robustness of modeling grounded word learning through a child's egocentric input
- Title(参考訳): 子どもの自己中心型入力による基礎的単語学習のロバスト性について
- Authors: Wai Keen Vong, Brenden M. Lake,
- Abstract要約: 本研究では,各子から自動的に書き起こされたデータに基づいて学習したマルチモーダルニューラルネットワークが,複数のネットワークアーキテクチャにまたがる単語参照マッピングを取得し,一般化可能であることを示す。
単語学習のためのマルチモーダルニューラルネットワークのロバスト性を検証する。
- 参考スコア(独自算出の注目度): 9.62675241698235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: What insights can machine learning bring to understanding human language acquisition? Large language and multimodal models have achieved remarkable capabilities, but their reliance on massive training datasets creates a fundamental mismatch with children, who succeed in acquiring language from comparatively limited input. To help bridge this gap, researchers have increasingly trained neural networks using data similar in quantity and quality to children's input. Taking this approach to the limit, Vong et al. (2024) showed that a multimodal neural network trained on 61 hours of visual and linguistic input extracted from just one child's developmental experience could acquire word-referent mappings. However, whether this approach's success reflects the idiosyncrasies of a single child's experience, or whether it would show consistent and robust learning patterns across multiple children's experiences was not explored. In this article, we applied automated speech transcription methods to the entirety of the SAYCam dataset, consisting of over 500 hours of video data spread across all three children. Using these automated transcriptions, we generated multi-modal vision-and-language datasets for both training and evaluation, and explored a range of neural network configurations to examine the robustness of simulated word learning. Our findings demonstrate that networks trained on automatically transcribed data from each child can acquire and generalize word-referent mappings across multiple network architectures. These results validate the robustness of multimodal neural networks for grounded word learning, while highlighting the individual differences that emerge in how models learn when trained on each child's developmental experiences.
- Abstract(参考訳): 機械学習は人間の言語習得にどのような洞察をもたらすのか?
大規模言語とマルチモーダルモデルは目覚ましい能力を達成したが、大規模なトレーニングデータセットへの依存は、比較的限られた入力から言語を取得することに成功している子供たちと根本的なミスマッチを生み出す。
このギャップを埋めるために、研究者らは、子供の入力に類似した量と品質のデータを使用して、ニューラルネットワークをますます訓練してきた。
この問題に対するアプローチとして、Vong et al (2024) は、1人の子どもの発達経験から抽出された61時間の視覚的および言語的入力に基づいて訓練されたマルチモーダルニューラルネットワークが、単語参照マッピングを取得できることを示した。
しかし, このアプローチの成功は, 一人の子どもの体験の同調を反映しているのか, あるいは複数の子どもの体験に一貫した, 頑健な学習パターンを示すのかは, 明らかにされていない。
本稿では,3人の子供全員に広まる500時間以上のビデオデータからなるSAYCamデータセット全体に対して,自動音声書き起こし手法を適用した。
これらの自動転写を用いて、トレーニングと評価の両方のためのマルチモーダル・ヴィジュアル・アンド・ランゲージデータセットを生成し、シミュレーションされた単語学習の堅牢性を調べるために、ニューラルネットワーク構成の範囲を調査した。
本研究は,各子から自動的に書き起こされたデータに基づいて学習したネットワークが,複数のネットワークアーキテクチャにまたがる単語参照マッピングを取得,一般化可能であることを示す。
これらの結果は、各子供の発達経験に基づいてトレーニングされたモデルがどのように学習するかの個々の違いを強調しながら、接地された単語学習のためのマルチモーダルニューラルネットワークの堅牢性を検証する。
関連論文リスト
- Spatio-Temporal Graph Neural Networks for Infant Language Acquisition Prediction [0.0]
幼児・幼児向け言語習得モデルの構築と、時空間グラフ畳み込みネットワーク(STGCN)での活用
本稿では,子語彙獲得の予測に新たなアプローチを導入し,言語習得の過程で発生する言語関係の異なるタイプに対して,そのようなモデルの有効性を評価する。
論文 参考訳(メタデータ) (2025-03-18T15:21:27Z) - Developmental Predictive Coding Model for Early Infancy Mono and Bilingual Vocal Continual Learning [69.8008228833895]
本稿では,連続学習機構を備えた小型生成ニューラルネットワークを提案する。
我々のモデルは解釈可能性を重視し,オンライン学習の利点を実証する。
論文 参考訳(メタデータ) (2024-12-23T10:23:47Z) - An iterated learning model of language change that mixes supervised and unsupervised learning [0.0]
反復学習モデルは、世代から世代への言語の伝達をシミュレートするエージェントモデルである。
各イテレーションにおいて、言語家庭教師は、ナイーブな瞳孔を限られた発話の訓練セットに公開し、それぞれがランダムな意味とそれを伝達する信号とをペアリングする。
送信ボトルネックは、チューターが経験したトレーニングセットを超えて一般化する必要があることを保証します。
論文 参考訳(メタデータ) (2024-05-31T14:14:01Z) - A systematic investigation of learnability from single child linguistic input [12.279543223376935]
言語モデル(LM)は言語的に一貫性のあるテキストを生成するのに顕著な能力を示した。
しかし、これらのモデルのトレーニングデータと、子供が受ける言語的入力との間には、大きなギャップがある。
本研究は, 一人の子どもの言語入力のサブセットに基づいて, LMを訓練することに焦点を当てた。
論文 参考訳(メタデータ) (2024-02-12T18:58:58Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - What Artificial Neural Networks Can Tell Us About Human Language
Acquisition [47.761188531404066]
自然言語処理のための機械学習の急速な進歩は、人間がどのように言語を学ぶかについての議論を変革する可能性がある。
計算モデルによる学習可能性の関連性を高めるためには,人間に対して大きな優位性を持たず,モデル学習者を訓練する必要がある。
論文 参考訳(メタデータ) (2022-08-17T00:12:37Z) - Dependency-based Mixture Language Models [53.152011258252315]
依存性に基づく混合言語モデルを紹介する。
より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。
次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
論文 参考訳(メタデータ) (2022-03-19T06:28:30Z) - Word Acquisition in Neural Language Models [0.38073142980733]
ニューラルネットワークモデルは,学習中に個々の単語を習得し,学習曲線を抽出し,600以上の単語の獲得年齢を推定する。
子どもや言語モデルでは, 具体性, 単語長, 語彙クラスの影響が顕著に異なることがわかった。
論文 参考訳(メタデータ) (2021-10-05T23:26:16Z) - What Matters in Learning from Offline Human Demonstrations for Robot
Manipulation [64.43440450794495]
ロボット操作のための6つのオフライン学習アルゴリズムについて広範な研究を行う。
我々の研究は、オフラインの人間のデータから学習する際の最も重要な課題を分析します。
人間のデータセットから学ぶ機会を強調します。
論文 参考訳(メタデータ) (2021-08-06T20:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。