論文の概要: Word Acquisition in Neural Language Models
- arxiv url: http://arxiv.org/abs/2110.02406v1
- Date: Tue, 5 Oct 2021 23:26:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 14:29:46.719206
- Title: Word Acquisition in Neural Language Models
- Title(参考訳): ニューラル言語モデルにおける単語獲得
- Authors: Tyler A. Chang, Benjamin K. Bergen
- Abstract要約: ニューラルネットワークモデルは,学習中に個々の単語を習得し,学習曲線を抽出し,600以上の単語の獲得年齢を推定する。
子どもや言語モデルでは, 具体性, 単語長, 語彙クラスの影響が顕著に異なることがわかった。
- 参考スコア(独自算出の注目度): 0.38073142980733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate how neural language models acquire individual words during
training, extracting learning curves and ages of acquisition for over 600 words
on the MacArthur-Bates Communicative Development Inventory (Fenson et al.,
2007). Drawing on studies of word acquisition in children, we evaluate multiple
predictors for words' ages of acquisition in LSTMs, BERT, and GPT-2. We find
that the effects of concreteness, word length, and lexical class are pointedly
different in children and language models, reinforcing the importance of
interaction and sensorimotor experience in child language acquisition. Language
models rely far more on word frequency than children, but like children, they
exhibit slower learning of words in longer utterances. Interestingly, models
follow consistent patterns during training for both unidirectional and
bidirectional models, and for both LSTM and Transformer architectures. Models
predict based on unigram token frequencies early in training, before
transitioning loosely to bigram probabilities, eventually converging on more
nuanced predictions. These results shed light on the role of distributional
learning mechanisms in children, while also providing insights for more
human-like language acquisition in language models.
- Abstract(参考訳): ニューラル言語モデルが学習中に個々の単語の獲得、学習曲線の抽出、600語以上の獲得の年齢をMacArthur-Bates Communicative Development Inventory (Fenson et al., 2007)で検討した。
子どもにおける単語獲得の研究に基づき,LSTM,BERT,GPT-2における単語獲得年齢の予測因子について検討した。
子どもの言語モデルでは, 具体性, 単語長, 語彙クラスの影響が顕著に異なることが明らかとなり, 子どもの言語習得における相互作用や知覚的経験の重要性が強まった。
言語モデルは、子供よりも単語の頻度に依存するが、子供と同様に、長い発話で単語の学習が遅くなる。
興味深いことに、モデルは一方向モデルと双方向モデル、LSTMとTransformerアーキテクチャの両方のトレーニング中に一貫したパターンに従う。
モデルはトレーニングの初期にユニグラムトークンの頻度に基づいて予測し、その後緩やかにbigram確率に遷移し、最終的によりニュアンス的な予測に収束する。
これらの結果は、子どもにおける分布学習メカニズムの役割に光を当て、言語モデルにおけるより人間ライクな言語獲得のための洞察を提供した。
関連論文リスト
- A systematic investigation of learnability from single child linguistic
input [13.800975990242922]
言語モデル(LM)は言語的に一貫性のあるテキストを生成するのに顕著な能力を示した。
しかし、これらのモデルのトレーニングデータと、子供が受ける言語的入力との間には、大きなギャップがある。
本研究は, 一人の子どもの言語入力のサブセットに基づいて, LMを訓練することに焦点を当てた。
論文 参考訳(メタデータ) (2024-02-12T18:58:58Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [53.7168869241458]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - Characterizing Learning Curves During Language Model Pre-Training:
Learning, Forgetting, and Stability [28.68721131100346]
より長く一貫性のあるテキストを生成するために学習する前に,言語モデルが短い反復句を生成するのを観察する。
我々は、個々のトークンに対する学習曲線の最終的な前提、内部変動、取得年齢、忘れやすさ、およびクロスラン変動を、文脈において定量化する。
我々の研究は、言語モデルの事前学習のダイナミクスをより深く理解し、安定な言語モデルの実践的な展開を知らせます。
論文 参考訳(メタデータ) (2023-08-29T16:24:09Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - Dependency-based Mixture Language Models [53.152011258252315]
依存性に基づく混合言語モデルを紹介する。
より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。
次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
論文 参考訳(メタデータ) (2022-03-19T06:28:30Z) - Evaluating Models of Robust Word Recognition with Serial Reproduction [8.17947290421835]
広範囲確率的生成言語モデルと人間の言語的期待を捉える能力の比較を行った。
先行した言語的文脈の抽象表現を利用するこれらのモデルは、連続再生の過程で人々が行った変化を最もよく予測する。
論文 参考訳(メタデータ) (2021-01-24T20:16:12Z) - A Visuospatial Dataset for Naturalistic Verb Learning [18.654373173232205]
基礎言語モデルのトレーニングと評価のための新しいデータセットを導入する。
我々のデータはバーチャルリアリティー環境で収集され、言語データの品質をエミュレートするように設計されている。
収集したデータを用いて、動詞学習のための複数の分布意味論モデルを比較する。
論文 参考訳(メタデータ) (2020-10-28T20:47:13Z) - Pretrained Language Model Embryology: The Birth of ALBERT [68.5801642674541]
ランダムなパラメータの集合からトチエント言語モデルへの発達過程について検討する。
その結果、ALBERTは、事前学習中に異なる学習速度で、音声の異なる部分(POS)のトークンを再構成し、予測することを学習していることがわかった。
これらの結果は、事前訓練されたモデルの知識が事前訓練の間に異なることを示唆し、事前訓練のステップを持つことは、必ずしもより包括的な知識を持つモデルを提供するとは限らないことを示唆している。
論文 参考訳(メタデータ) (2020-10-06T05:15:39Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。