論文の概要: CLIMB: Curriculum Learning for Infant-inspired Model Building
- arxiv url: http://arxiv.org/abs/2311.08886v1
- Date: Wed, 15 Nov 2023 11:48:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 16:07:31.995163
- Title: CLIMB: Curriculum Learning for Infant-inspired Model Building
- Title(参考訳): CLIMB:幼児モデル構築のためのカリキュラム学習
- Authors: Richard Diehl Martinez, Zebulon Goriely, Hope McGovern, Christopher
Davis, Andrew Caines, Paula Buttery, Lisa Beinborn
- Abstract要約: 本稿では,BabyLM ChallengeのSTRICT-SMALLトラックへのチームの貢献について述べる。
課題は、1000万ワードの比較的小さなトレーニングデータセットを使用して、言語モデルをゼロからトレーニングすることである。
認知に動機づけられたカリキュラム学習の3つの変種を実験し,そのモデルの性能に及ぼす影響を解析した。
- 参考スコア(独自算出の注目度): 6.4766496232839685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We describe our team's contribution to the STRICT-SMALL track of the BabyLM
Challenge. The challenge requires training a language model from scratch using
only a relatively small training dataset of ten million words. We experiment
with three variants of cognitively-motivated curriculum learning and analyze
their effect on the performance of the model on linguistic evaluation tasks. In
the vocabulary curriculum, we analyze methods for constraining the vocabulary
in the early stages of training to simulate cognitively more plausible learning
curves. In the data curriculum experiments, we vary the order of the training
instances based on i) infant-inspired expectations and ii) the learning
behavior of the model. In the objective curriculum, we explore different
variations of combining the conventional masked language modeling task with a
more coarse-grained word class prediction task to reinforce linguistic
generalization capabilities. Our results did not yield consistent improvements
over our own non-curriculum learning baseline across a range of linguistic
benchmarks; however, we do find marginal gains on select tasks. Our analysis
highlights key takeaways for specific combinations of tasks and settings which
benefit from our proposed curricula. We moreover determine that careful
selection of model architecture, and training hyper-parameters yield
substantial improvements over the default baselines provided by the BabyLM
challenge.
- Abstract(参考訳): 本稿では,BabyLM ChallengeのSTRICT-SMALLトラックへのチームの貢献について述べる。
課題は、1000万語の比較的小さなトレーニングデータセットのみを使用して、スクラッチから言語モデルをトレーニングすることである。
認知的動機のあるカリキュラム学習の3つのバリエーションを実験し、そのモデルの性能が言語評価タスクに与える影響を分析する。
語彙カリキュラムでは、学習の初期段階で語彙を制約する手法を分析し、認知的に読みやすい学習曲線をシミュレートする。
データカリキュラムの実験では、トレーニングインスタンスの順序が異なります。
一 幼児に触発された期待及び
二 モデルの学習行動
目的とするカリキュラムでは,従来のマスク付き言語モデリングタスクとより粗い単語クラス予測タスクを組み合わせることで,言語一般化能力の強化を図る。
本研究の結果は, 言語ベンチマークにおいて, 非カリキュラム学習ベースラインに対して一貫した改善は得られなかったが, 特定のタスクに対して, 限界的な利得が得られた。
分析では,提案するカリキュラムの恩恵を受けるタスクと設定の具体的組み合わせに関する要点を強調した。
さらに、モデルアーキテクチャの慎重に選択し、ハイパーパラメータをトレーニングすることで、BabyLMチャレンジが提供するデフォルトベースラインよりも大幅に改善できると判断する。
関連論文リスト
- Findings of the Second BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora [79.03392191805028]
BabyLM Challengeは、人間と計算言語学習者のデータ効率ギャップを埋めるためのコミュニティの取り組みである。
参加者は1億ワード以下の固定言語データ予算で、言語モデルトレーニングを最適化するために競争する。
論文 参考訳(メタデータ) (2024-12-06T16:06:08Z) - Less is More: Pre-Training Cross-Lingual Small-Scale Language Models with Cognitively-Plausible Curriculum Learning Strategies [2.6684726101845]
よりきめ細かいカリキュラム学習戦略を特定するために言語習得理論を利用できるかを評価する。
我々は、SSLMと取得インスパイアされたキュリキュラを言語横断的に実装するために、4つの言語家族のための年齢順コーパスを作成した。
論文 参考訳(メタデータ) (2024-10-30T10:31:54Z) - KidLM: Advancing Language Models for Children -- Early Insights and Future Directions [7.839083566878183]
本研究では,子供用,時には子供用のコーパスを収集し,検証する,ユーザ中心のデータ収集パイプラインを提案する。
本研究では,ドメイン固有の児童言語データに基づいてマスキング確率を動的に調整する新たな学習目標であるStratified Maskingを提案する。
実験により,本モデルは下級テキストの理解に優れ,ステレオタイプを避けて安全性を維持し,子どもの独特な嗜好を捉えていることが示された。
論文 参考訳(メタデータ) (2024-10-04T19:35:44Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - LERT: A Linguistically-motivated Pre-trained Language Model [67.65651497173998]
本稿では,3種類の言語特徴を学習する事前学習型言語モデルLERTを提案する。
我々は,中国における10のNLUタスクについて広範な実験を行い,LERTが大きな改善をもたらすことを示す実験結果を得た。
論文 参考訳(メタデータ) (2022-11-10T05:09:16Z) - Forging Multiple Training Objectives for Pre-trained Language Models via
Meta-Learning [97.28779163988833]
複数の事前学習目標が単一目的言語モデリングの理解能力の欠如を埋める。
メタラーニングに基づく新しい適応型サンプリングシステムであるtextitMOMETAS を提案し,任意の事前学習対象に対して潜時サンプリングパターンを学習する。
論文 参考訳(メタデータ) (2022-10-19T04:38:26Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z) - Curriculum learning for language modeling [2.2475845406292714]
自然言語処理コミュニティにとって、言語モデルはトランスフォーメーションであることが証明されている。
これらのモデルは高価でエネルギー集約的で、訓練が難しいことが証明されている。
カリキュラム学習は、代わりに構造化されたトレーニング体制を利用する方法である。
論文 参考訳(メタデータ) (2021-08-04T16:53:43Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。