Fugu-MT 論文翻訳(概要): Word Acquisition in Neural Language Models

論文の概要: Word Acquisition in Neural Language Models

arxiv url: http://arxiv.org/abs/2110.02406v1
Date: Tue, 5 Oct 2021 23:26:16 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-07 14:29:46.719206
Title: Word Acquisition in Neural Language Models
Title（参考訳）: ニューラル言語モデルにおける単語獲得
Authors: Tyler A. Chang, Benjamin K. Bergen
Abstract要約: ニューラルネットワークモデルは,学習中に個々の単語を習得し,学習曲線を抽出し,600以上の単語の獲得年齢を推定する。子どもや言語モデルでは, 具体性, 単語長, 語彙クラスの影響が顕著に異なることがわかった。
参考スコア（独自算出の注目度）: 0.38073142980733
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We investigate how neural language models acquire individual words during training, extracting learning curves and ages of acquisition for over 600 words on the MacArthur-Bates Communicative Development Inventory (Fenson et al., 2007). Drawing on studies of word acquisition in children, we evaluate multiple predictors for words' ages of acquisition in LSTMs, BERT, and GPT-2. We find that the effects of concreteness, word length, and lexical class are pointedly different in children and language models, reinforcing the importance of interaction and sensorimotor experience in child language acquisition. Language models rely far more on word frequency than children, but like children, they exhibit slower learning of words in longer utterances. Interestingly, models follow consistent patterns during training for both unidirectional and bidirectional models, and for both LSTM and Transformer architectures. Models predict based on unigram token frequencies early in training, before transitioning loosely to bigram probabilities, eventually converging on more nuanced predictions. These results shed light on the role of distributional learning mechanisms in children, while also providing insights for more human-like language acquisition in language models.
Abstract（参考訳）: ニューラル言語モデルが学習中に個々の単語の獲得、学習曲線の抽出、600語以上の獲得の年齢をMacArthur-Bates Communicative Development Inventory (Fenson et al., 2007)で検討した。子どもにおける単語獲得の研究に基づき,LSTM,BERT,GPT-2における単語獲得年齢の予測因子について検討した。子どもの言語モデルでは, 具体性, 単語長, 語彙クラスの影響が顕著に異なることが明らかとなり, 子どもの言語習得における相互作用や知覚的経験の重要性が強まった。言語モデルは、子供よりも単語の頻度に依存するが、子供と同様に、長い発話で単語の学習が遅くなる。興味深いことに、モデルは一方向モデルと双方向モデル、LSTMとTransformerアーキテクチャの両方のトレーニング中に一貫したパターンに従う。モデルはトレーニングの初期にユニグラムトークンの頻度に基づいて予測し、その後緩やかにbigram確率に遷移し、最終的によりニュアンス的な予測に収束する。これらの結果は、子どもにおける分布学習メカニズムの役割に光を当て、言語モデルにおけるより人間ライクな言語獲得のための洞察を提供した。

関連論文リスト

Spatio-Temporal Graph Neural Networks for Infant Language Acquisition Prediction [0.0]
幼児・幼児向け言語習得モデルの構築と、時空間グラフ畳み込みネットワーク(STGCN)での活用本稿では,子語彙獲得の予測に新たなアプローチを導入し,言語習得の過程で発生する言語関係の異なるタイプに対して,そのようなモデルの有効性を評価する。
論文参考訳（メタデータ） (2025-03-18T15:21:27Z)
A Distributional Perspective on Word Learning in Neural Language Models [57.41607944290822]
言語モデルにおける単語学習のための広く合意されたメトリクスは存在しない。我々は、先行研究で研究された分布シグネチャは、重要な分布情報の取得に失敗すると主張している。我々は、スクラッチから訓練する小さな言語モデルを選択するための学習軌跡を得る。
論文参考訳（メタデータ） (2025-02-09T13:15:59Z)
Developmental Predictive Coding Model for Early Infancy Mono and Bilingual Vocal Continual Learning [69.8008228833895]
本稿では,連続学習機構を備えた小型生成ニューラルネットワークを提案する。我々のモデルは解釈可能性を重視し,オンライン学習の利点を実証する。
論文参考訳（メタデータ） (2024-12-23T10:23:47Z)
Is Child-Directed Speech Effective Training Data for Language Models? [34.46268640655943]
GPT-2 と RoBERTa モデルを英語の子供指向音声の29万語で学習する。子どものトレーニングデータのグローバルな発達順序付けやローカルな談話順序付けが、他のデータセットと比較して高いパフォーマンスを支えているかどうかを検証する。これらの結果は、より良いデータから進むのではなく、子供の学習アルゴリズムが現在の言語モデリング技術よりもはるかにデータ効率が高いという仮説を支持している。
論文参考訳（メタデータ） (2024-08-07T08:18:51Z)
DevBench: A multimodal developmental benchmark for language learning [0.34129029452670606]
タスクと行動データに基づいて視覚言語モデルを評価するベンチマークであるDevBenchを紹介する。 DevBenchは、モデルを人間の言語開発と比較するためのベンチマークを提供する。これらの比較は、モデルと人間の言語学習プロセスの分岐方法を強調する。
論文参考訳（メタデータ） (2024-06-14T17:49:41Z)
A model of early word acquisition based on realistic-scale audiovisual naming events [10.047470656294333]
音声知覚入力における正規性からの統計的学習により,早期語が獲得できる範囲について検討した。生音声の統計的規則性や画素レベルの視覚入力から学習するモデルを用いて,12ヵ月までの幼児の語学学習を現実的な環境でシミュレーションした。以上の結果から, 幼児期と同等の語彙成長速度で, 単語の認識とそれに対応する視覚オブジェクトの関連付けを効果的に学習できることが示唆された。
論文参考訳（メタデータ） (2024-06-07T21:05:59Z)
A systematic investigation of learnability from single child linguistic input [12.279543223376935]
言語モデル(LM)は言語的に一貫性のあるテキストを生成するのに顕著な能力を示した。しかし、これらのモデルのトレーニングデータと、子供が受ける言語的入力との間には、大きなギャップがある。本研究は, 一人の子どもの言語入力のサブセットに基づいて, LMを訓練することに焦点を当てた。
論文参考訳（メタデータ） (2024-02-12T18:58:58Z)
Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか? 本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文参考訳（メタデータ） (2023-10-20T03:33:36Z)
Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。 1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文参考訳（メタデータ） (2023-03-14T17:05:08Z)
Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文参考訳（メタデータ） (2022-05-24T03:35:00Z)
Dependency-based Mixture Language Models [53.152011258252315]
依存性に基づく混合言語モデルを紹介する。より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
論文参考訳（メタデータ） (2022-03-19T06:28:30Z)
Pretrained Language Model Embryology: The Birth of ALBERT [68.5801642674541]
ランダムなパラメータの集合からトチエント言語モデルへの発達過程について検討する。その結果、ALBERTは、事前学習中に異なる学習速度で、音声の異なる部分(POS)のトークンを再構成し、予測することを学習していることがわかった。これらの結果は、事前訓練されたモデルの知識が事前訓練の間に異なることを示唆し、事前訓練のステップを持つことは、必ずしもより包括的な知識を持つモデルを提供するとは限らないことを示唆している。
論文参考訳（メタデータ） (2020-10-06T05:15:39Z)
Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文参考訳（メタデータ） (2020-09-27T02:13:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。