論文の概要: Word Acquisition in Neural Language Models
- arxiv url: http://arxiv.org/abs/2110.02406v1
- Date: Tue, 5 Oct 2021 23:26:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 14:29:46.719206
- Title: Word Acquisition in Neural Language Models
- Title(参考訳): ニューラル言語モデルにおける単語獲得
- Authors: Tyler A. Chang, Benjamin K. Bergen
- Abstract要約: ニューラルネットワークモデルは,学習中に個々の単語を習得し,学習曲線を抽出し,600以上の単語の獲得年齢を推定する。
子どもや言語モデルでは, 具体性, 単語長, 語彙クラスの影響が顕著に異なることがわかった。
- 参考スコア(独自算出の注目度): 0.38073142980733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate how neural language models acquire individual words during
training, extracting learning curves and ages of acquisition for over 600 words
on the MacArthur-Bates Communicative Development Inventory (Fenson et al.,
2007). Drawing on studies of word acquisition in children, we evaluate multiple
predictors for words' ages of acquisition in LSTMs, BERT, and GPT-2. We find
that the effects of concreteness, word length, and lexical class are pointedly
different in children and language models, reinforcing the importance of
interaction and sensorimotor experience in child language acquisition. Language
models rely far more on word frequency than children, but like children, they
exhibit slower learning of words in longer utterances. Interestingly, models
follow consistent patterns during training for both unidirectional and
bidirectional models, and for both LSTM and Transformer architectures. Models
predict based on unigram token frequencies early in training, before
transitioning loosely to bigram probabilities, eventually converging on more
nuanced predictions. These results shed light on the role of distributional
learning mechanisms in children, while also providing insights for more
human-like language acquisition in language models.
- Abstract(参考訳): ニューラル言語モデルが学習中に個々の単語の獲得、学習曲線の抽出、600語以上の獲得の年齢をMacArthur-Bates Communicative Development Inventory (Fenson et al., 2007)で検討した。
子どもにおける単語獲得の研究に基づき,LSTM,BERT,GPT-2における単語獲得年齢の予測因子について検討した。
子どもの言語モデルでは, 具体性, 単語長, 語彙クラスの影響が顕著に異なることが明らかとなり, 子どもの言語習得における相互作用や知覚的経験の重要性が強まった。
言語モデルは、子供よりも単語の頻度に依存するが、子供と同様に、長い発話で単語の学習が遅くなる。
興味深いことに、モデルは一方向モデルと双方向モデル、LSTMとTransformerアーキテクチャの両方のトレーニング中に一貫したパターンに従う。
モデルはトレーニングの初期にユニグラムトークンの頻度に基づいて予測し、その後緩やかにbigram確率に遷移し、最終的によりニュアンス的な予測に収束する。
これらの結果は、子どもにおける分布学習メカニズムの役割に光を当て、言語モデルにおけるより人間ライクな言語獲得のための洞察を提供した。
関連論文リスト
- Is Child-Directed Speech Effective Training Data for Language Models? [34.46268640655943]
GPT-2 と RoBERTa モデルを英語の子供指向音声の29万語で学習する。
子どものトレーニングデータのグローバルな発達順序付けやローカルな談話順序付けが、他のデータセットと比較して高いパフォーマンスを支えているかどうかを検証する。
これらの結果は、より良いデータから進むのではなく、子供の学習アルゴリズムが現在の言語モデリング技術よりもはるかにデータ効率が高いという仮説を支持している。
論文 参考訳(メタデータ) (2024-08-07T08:18:51Z) - DevBench: A multimodal developmental benchmark for language learning [0.34129029452670606]
タスクと行動データに基づいて視覚言語モデルを評価するベンチマークであるDevBenchを紹介する。
DevBenchは、モデルを人間の言語開発と比較するためのベンチマークを提供する。
これらの比較は、モデルと人間の言語学習プロセスの分岐方法を強調する。
論文 参考訳(メタデータ) (2024-06-14T17:49:41Z) - A model of early word acquisition based on realistic-scale audiovisual naming events [10.047470656294333]
音声知覚入力における正規性からの統計的学習により,早期語が獲得できる範囲について検討した。
生音声の統計的規則性や画素レベルの視覚入力から学習するモデルを用いて,12ヵ月までの幼児の語学学習を現実的な環境でシミュレーションした。
以上の結果から, 幼児期と同等の語彙成長速度で, 単語の認識とそれに対応する視覚オブジェクトの関連付けを効果的に学習できることが示唆された。
論文 参考訳(メタデータ) (2024-06-07T21:05:59Z) - A systematic investigation of learnability from single child linguistic input [12.279543223376935]
言語モデル(LM)は言語的に一貫性のあるテキストを生成するのに顕著な能力を示した。
しかし、これらのモデルのトレーニングデータと、子供が受ける言語的入力との間には、大きなギャップがある。
本研究は, 一人の子どもの言語入力のサブセットに基づいて, LMを訓練することに焦点を当てた。
論文 参考訳(メタデータ) (2024-02-12T18:58:58Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - Dependency-based Mixture Language Models [53.152011258252315]
依存性に基づく混合言語モデルを紹介する。
より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。
次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
論文 参考訳(メタデータ) (2022-03-19T06:28:30Z) - Pretrained Language Model Embryology: The Birth of ALBERT [68.5801642674541]
ランダムなパラメータの集合からトチエント言語モデルへの発達過程について検討する。
その結果、ALBERTは、事前学習中に異なる学習速度で、音声の異なる部分(POS)のトークンを再構成し、予測することを学習していることがわかった。
これらの結果は、事前訓練されたモデルの知識が事前訓練の間に異なることを示唆し、事前訓練のステップを持つことは、必ずしもより包括的な知識を持つモデルを提供するとは限らないことを示唆している。
論文 参考訳(メタデータ) (2020-10-06T05:15:39Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。