論文の概要: Baby Scale: Investigating Models Trained on Individual Children's Language Input
- arxiv url: http://arxiv.org/abs/2603.29522v1
- Date: Tue, 31 Mar 2026 10:06:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.480757
- Title: Baby Scale: Investigating Models Trained on Individual Children's Language Input
- Title(参考訳): ベビースケール:個々の子どもの言語入力に基づく学習モデルの検討
- Authors: Steven Y. Feng, Alvin W. M. Tan, Michael C. Frank,
- Abstract要約: 現代の言語モデルは、人間の子どもが受けるものよりも、桁違いに多くのトレーニングデータで訓練されなければならない。
我々は、子どもの自然学習データから言語知識がどのように現れるかを理解するために、人間のスケールデータセット上でLMをベンチマークする。
児童データに基づいて訓練されたLMは文法タスクのスケーリングを許容できるが、意味的および世界知識タスクのスケーリングは、合成データで訓練されたモデルよりも少ない。
- 参考スコア(独自算出の注目度): 2.3226022042424934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern language models (LMs) must be trained on many orders of magnitude more words of training data than human children receive before they begin to produce useful behavior. Assessing the nature and origins of this "data gap" requires benchmarking LMs on human-scale datasets to understand how linguistic knowledge emerges from children's natural training data. Using transcripts from the BabyView dataset (videos from children ages 6-36 months), we investigate (1) scaling performance at child-scale data regimes, (2) variability in model performance across datasets from different children's experiences and linguistic predictors of dataset quality, and (3) relationships between model and child language learning outcomes. LMs trained on child data show acceptable scaling for grammar tasks, but lower scaling on semantic and world knowledge tasks than models trained on synthetic data; we also observe substantial variability on data from different children. Beyond dataset size, performance is most associated with a combination of distributional and interactional linguistic features, broadly consistent with what makes high-quality input for child language development. Finally, model likelihoods for individual words correlate with children's learning of those words, suggesting that properties of child-directed input may influence both model learning and human language development. Overall, understanding what properties make language data efficient for learning can enable more powerful small-scale language models while also shedding light on human language acquisition.
- Abstract(参考訳): 現代の言語モデル(LM)は、有用な行動を生み出し始める前に、人間の子供よりはるかに多くの訓練データに基づいて訓練されなければならない。
この「データギャップ」の性質と起源を評価するには、子どもの自然学習データから言語知識がどのように現れるかを理解するために、人間のスケールデータセット上でLMをベンチマークする必要がある。
BabyViewデータセット(6~36ヶ月のビデオ)の転写データを用いて,(1)子育てデータ体制におけるスケーリング性能,(2)異なる子どもの経験から得られたデータセット間のモデル性能の変動,(3)モデルと子どもの言語学習結果の関係について検討した。
児童データに基づいて訓練されたLMは、文法タスクのスケーリングが許容できるが、意味的および世界知識タスクのスケーリングは、合成データで訓練されたモデルよりも少ない。
データセットのサイズを超えて、パフォーマンスは分散言語と相互作用言語の組み合わせに最も関連付けられており、児童言語の発達に高品質な入力をもたらすものと広く一致している。
最後に、個々の単語に対するモデルの可能性は、これらの単語に対する子供の学習と相関し、児童指向の入力の特性がモデル学習と人間の言語発達の両方に影響を及ぼす可能性があることを示唆する。
全体として、どのような特性が言語データを学習に効果的にするかを理解することで、より強力な小規模言語モデルを実現すると同時に、人間の言語習得にも光を当てることができる。
関連論文リスト
- Is Child-Directed Speech Effective Training Data for Language Models? [34.46268640655943]
GPT-2 と RoBERTa モデルを英語の子供指向音声の29万語で学習する。
子どものトレーニングデータのグローバルな発達順序付けやローカルな談話順序付けが、他のデータセットと比較して高いパフォーマンスを支えているかどうかを検証する。
これらの結果は、より良いデータから進むのではなく、子供の学習アルゴリズムが現在の言語モデリング技術よりもはるかにデータ効率が高いという仮説を支持している。
論文 参考訳(メタデータ) (2024-08-07T08:18:51Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - What Artificial Neural Networks Can Tell Us About Human Language
Acquisition [47.761188531404066]
自然言語処理のための機械学習の急速な進歩は、人間がどのように言語を学ぶかについての議論を変革する可能性がある。
計算モデルによる学習可能性の関連性を高めるためには,人間に対して大きな優位性を持たず,モデル学習者を訓練する必要がある。
論文 参考訳(メタデータ) (2022-08-17T00:12:37Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - A Visuospatial Dataset for Naturalistic Verb Learning [18.654373173232205]
基礎言語モデルのトレーニングと評価のための新しいデータセットを導入する。
我々のデータはバーチャルリアリティー環境で収集され、言語データの品質をエミュレートするように設計されている。
収集したデータを用いて、動詞学習のための複数の分布意味論モデルを比較する。
論文 参考訳(メタデータ) (2020-10-28T20:47:13Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。