論文の概要: CLIMB: Curriculum Learning for Infant-inspired Model Building
- arxiv url: http://arxiv.org/abs/2311.08886v1
- Date: Wed, 15 Nov 2023 11:48:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 16:07:31.995163
- Title: CLIMB: Curriculum Learning for Infant-inspired Model Building
- Title(参考訳): CLIMB:幼児モデル構築のためのカリキュラム学習
- Authors: Richard Diehl Martinez, Zebulon Goriely, Hope McGovern, Christopher
Davis, Andrew Caines, Paula Buttery, Lisa Beinborn
- Abstract要約: 本稿では,BabyLM ChallengeのSTRICT-SMALLトラックへのチームの貢献について述べる。
課題は、1000万ワードの比較的小さなトレーニングデータセットを使用して、言語モデルをゼロからトレーニングすることである。
認知に動機づけられたカリキュラム学習の3つの変種を実験し,そのモデルの性能に及ぼす影響を解析した。
- 参考スコア(独自算出の注目度): 6.4766496232839685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We describe our team's contribution to the STRICT-SMALL track of the BabyLM
Challenge. The challenge requires training a language model from scratch using
only a relatively small training dataset of ten million words. We experiment
with three variants of cognitively-motivated curriculum learning and analyze
their effect on the performance of the model on linguistic evaluation tasks. In
the vocabulary curriculum, we analyze methods for constraining the vocabulary
in the early stages of training to simulate cognitively more plausible learning
curves. In the data curriculum experiments, we vary the order of the training
instances based on i) infant-inspired expectations and ii) the learning
behavior of the model. In the objective curriculum, we explore different
variations of combining the conventional masked language modeling task with a
more coarse-grained word class prediction task to reinforce linguistic
generalization capabilities. Our results did not yield consistent improvements
over our own non-curriculum learning baseline across a range of linguistic
benchmarks; however, we do find marginal gains on select tasks. Our analysis
highlights key takeaways for specific combinations of tasks and settings which
benefit from our proposed curricula. We moreover determine that careful
selection of model architecture, and training hyper-parameters yield
substantial improvements over the default baselines provided by the BabyLM
challenge.
- Abstract(参考訳): 本稿では,BabyLM ChallengeのSTRICT-SMALLトラックへのチームの貢献について述べる。
課題は、1000万語の比較的小さなトレーニングデータセットのみを使用して、スクラッチから言語モデルをトレーニングすることである。
認知的動機のあるカリキュラム学習の3つのバリエーションを実験し、そのモデルの性能が言語評価タスクに与える影響を分析する。
語彙カリキュラムでは、学習の初期段階で語彙を制約する手法を分析し、認知的に読みやすい学習曲線をシミュレートする。
データカリキュラムの実験では、トレーニングインスタンスの順序が異なります。
一 幼児に触発された期待及び
二 モデルの学習行動
目的とするカリキュラムでは,従来のマスク付き言語モデリングタスクとより粗い単語クラス予測タスクを組み合わせることで,言語一般化能力の強化を図る。
本研究の結果は, 言語ベンチマークにおいて, 非カリキュラム学習ベースラインに対して一貫した改善は得られなかったが, 特定のタスクに対して, 限界的な利得が得られた。
分析では,提案するカリキュラムの恩恵を受けるタスクと設定の具体的組み合わせに関する要点を強調した。
さらに、モデルアーキテクチャの慎重に選択し、ハイパーパラメータをトレーニングすることで、BabyLMチャレンジが提供するデフォルトベースラインよりも大幅に改善できると判断する。
関連論文リスト
- Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [53.7168869241458]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - Unsupervised Improvement of Factual Knowledge in Language Models [4.5788796239850225]
マスケッド言語モデリングは、大規模言語モデルの事前訓練において重要な役割を果たす。
本稿では,様々な知識集約型タスクにおいて,言語モデルの性能を向上させる方法として,事前学習に影響を与えるアプローチを提案する。
論文 参考訳(メタデータ) (2023-04-04T07:37:06Z) - LERT: A Linguistically-motivated Pre-trained Language Model [67.65651497173998]
本稿では,3種類の言語特徴を学習する事前学習型言語モデルLERTを提案する。
我々は,中国における10のNLUタスクについて広範な実験を行い,LERTが大きな改善をもたらすことを示す実験結果を得た。
論文 参考訳(メタデータ) (2022-11-10T05:09:16Z) - Forging Multiple Training Objectives for Pre-trained Language Models via
Meta-Learning [97.28779163988833]
複数の事前学習目標が単一目的言語モデリングの理解能力の欠如を埋める。
メタラーニングに基づく新しい適応型サンプリングシステムであるtextitMOMETAS を提案し,任意の事前学習対象に対して潜時サンプリングパターンを学習する。
論文 参考訳(メタデータ) (2022-10-19T04:38:26Z) - Transfer Learning of Lexical Semantic Families for Argumentative
Discourse Units Identification [0.8508198765617198]
引数マイニングのタスクは、低から高の複雑さの言語現象と常識知識のインフォームドレンジを必要とする。
これまでの研究では、事前学習された言語モデルは、構文的および意味論的言語現象を符号化するのに非常に効果的であることが示されている。
既存のトレーニング済み言語モデルが、引数マイニングタスクの複雑さをどの程度含んでいるかは、依然として問題である。
論文 参考訳(メタデータ) (2022-09-06T13:38:47Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z) - Word Acquisition in Neural Language Models [0.38073142980733]
ニューラルネットワークモデルは,学習中に個々の単語を習得し,学習曲線を抽出し,600以上の単語の獲得年齢を推定する。
子どもや言語モデルでは, 具体性, 単語長, 語彙クラスの影響が顕著に異なることがわかった。
論文 参考訳(メタデータ) (2021-10-05T23:26:16Z) - Curriculum learning for language modeling [2.2475845406292714]
自然言語処理コミュニティにとって、言語モデルはトランスフォーメーションであることが証明されている。
これらのモデルは高価でエネルギー集約的で、訓練が難しいことが証明されている。
カリキュラム学習は、代わりに構造化されたトレーニング体制を利用する方法である。
論文 参考訳(メタデータ) (2021-08-04T16:53:43Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。