Fugu-MT 論文翻訳(概要): CLIMB: Curriculum Learning for Infant-inspired Model Building

論文の概要: CLIMB: Curriculum Learning for Infant-inspired Model Building

arxiv url: http://arxiv.org/abs/2311.08886v1
Date: Wed, 15 Nov 2023 11:48:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-16 16:07:31.995163
Title: CLIMB: Curriculum Learning for Infant-inspired Model Building
Title（参考訳）: CLIMB:幼児モデル構築のためのカリキュラム学習
Authors: Richard Diehl Martinez, Zebulon Goriely, Hope McGovern, Christopher Davis, Andrew Caines, Paula Buttery, Lisa Beinborn
Abstract要約: 本稿では,BabyLM ChallengeのSTRICT-SMALLトラックへのチームの貢献について述べる。課題は、1000万ワードの比較的小さなトレーニングデータセットを使用して、言語モデルをゼロからトレーニングすることである。認知に動機づけられたカリキュラム学習の3つの変種を実験し,そのモデルの性能に及ぼす影響を解析した。
参考スコア（独自算出の注目度）: 6.4766496232839685
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We describe our team's contribution to the STRICT-SMALL track of the BabyLM Challenge. The challenge requires training a language model from scratch using only a relatively small training dataset of ten million words. We experiment with three variants of cognitively-motivated curriculum learning and analyze their effect on the performance of the model on linguistic evaluation tasks. In the vocabulary curriculum, we analyze methods for constraining the vocabulary in the early stages of training to simulate cognitively more plausible learning curves. In the data curriculum experiments, we vary the order of the training instances based on i) infant-inspired expectations and ii) the learning behavior of the model. In the objective curriculum, we explore different variations of combining the conventional masked language modeling task with a more coarse-grained word class prediction task to reinforce linguistic generalization capabilities. Our results did not yield consistent improvements over our own non-curriculum learning baseline across a range of linguistic benchmarks; however, we do find marginal gains on select tasks. Our analysis highlights key takeaways for specific combinations of tasks and settings which benefit from our proposed curricula. We moreover determine that careful selection of model architecture, and training hyper-parameters yield substantial improvements over the default baselines provided by the BabyLM challenge.
Abstract（参考訳）: 本稿では,BabyLM ChallengeのSTRICT-SMALLトラックへのチームの貢献について述べる。課題は、1000万語の比較的小さなトレーニングデータセットのみを使用して、スクラッチから言語モデルをトレーニングすることである。認知的動機のあるカリキュラム学習の3つのバリエーションを実験し、そのモデルの性能が言語評価タスクに与える影響を分析する。語彙カリキュラムでは、学習の初期段階で語彙を制約する手法を分析し、認知的に読みやすい学習曲線をシミュレートする。データカリキュラムの実験では、トレーニングインスタンスの順序が異なります。一幼児に触発された期待及び二モデルの学習行動目的とするカリキュラムでは,従来のマスク付き言語モデリングタスクとより粗い単語クラス予測タスクを組み合わせることで,言語一般化能力の強化を図る。本研究の結果は, 言語ベンチマークにおいて, 非カリキュラム学習ベースラインに対して一貫した改善は得られなかったが, 特定のタスクに対して, 限界的な利得が得られた。分析では,提案するカリキュラムの恩恵を受けるタスクと設定の具体的組み合わせに関する要点を強調した。さらに、モデルアーキテクチャの慎重に選択し、ハイパーパラメータをトレーニングすることで、BabyLMチャレンジが提供するデフォルトベースラインよりも大幅に改善できると判断する。

関連論文リスト

Your Pretrained Model Tells the Difficulty Itself: A Self-Adaptive Curriculum Learning Paradigm for Natural Language Understanding [53.63482987410292]
本稿では,事前学習言語モデルにより予測される難易度に基づいて,微調整例を優先する自己適応型カリキュラム学習パラダイムを提案する。本手法は,4つの自然言語理解(NLU)データセットを用いて,二項分類と多項分類の両方を対象とする手法について検討した。
論文参考訳（メタデータ） (2025-07-13T19:36:17Z)
Beyond Random Sampling: Efficient Language Model Pretraining via Curriculum Learning [23.900888224619]
カリキュラム学習は,初等・中等教育段階におけるコンバージェンスを継続的に改善することを示す。圧縮比、語彙の多様性、可読性は、設定間の効果的な難易度信号として同定する。
論文参考訳（メタデータ） (2025-06-12T21:06:57Z)
Findings of the Second BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora [79.03392191805028]
BabyLM Challengeは、人間と計算言語学習者のデータ効率ギャップを埋めるためのコミュニティの取り組みである。参加者は1億ワード以下の固定言語データ予算で、言語モデルトレーニングを最適化するために競争する。
論文参考訳（メタデータ） (2024-12-06T16:06:08Z)
Less is More: Pre-Training Cross-Lingual Small-Scale Language Models with Cognitively-Plausible Curriculum Learning Strategies [2.6684726101845]
よりきめ細かいカリキュラム学習戦略を特定するために言語習得理論を利用できるかを評価する。我々は、SSLMと取得インスパイアされたキュリキュラを言語横断的に実装するために、4つの言語家族のための年齢順コーパスを作成した。
論文参考訳（メタデータ） (2024-10-30T10:31:54Z)
KidLM: Advancing Language Models for Children -- Early Insights and Future Directions [7.839083566878183]
本研究では,子供用,時には子供用のコーパスを収集し,検証する,ユーザ中心のデータ収集パイプラインを提案する。本研究では,ドメイン固有の児童言語データに基づいてマスキング確率を動的に調整する新たな学習目標であるStratified Maskingを提案する。実験により,本モデルは下級テキストの理解に優れ,ステレオタイプを避けて安全性を維持し,子どもの独特な嗜好を捉えていることが示された。
論文参考訳（メタデータ） (2024-10-04T19:35:44Z)
Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文参考訳（メタデータ） (2024-04-11T04:22:15Z)
Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。 In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文参考訳（メタデータ） (2023-05-16T03:38:06Z)
LERT: A Linguistically-motivated Pre-trained Language Model [67.65651497173998]
本稿では,3種類の言語特徴を学習する事前学習型言語モデルLERTを提案する。我々は,中国における10のNLUタスクについて広範な実験を行い,LERTが大きな改善をもたらすことを示す実験結果を得た。
論文参考訳（メタデータ） (2022-11-10T05:09:16Z)
Forging Multiple Training Objectives for Pre-trained Language Models via Meta-Learning [97.28779163988833]
複数の事前学習目標が単一目的言語モデリングの理解能力の欠如を埋める。メタラーニングに基づく新しい適応型サンプリングシステムであるtextitMOMETAS を提案し,任意の事前学習対象に対して潜時サンプリングパターンを学習する。
論文参考訳（メタデータ） (2022-10-19T04:38:26Z)
Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文参考訳（メタデータ） (2021-12-16T05:36:08Z)
Curriculum learning for language modeling [2.2475845406292714]
自然言語処理コミュニティにとって、言語モデルはトランスフォーメーションであることが証明されている。これらのモデルは高価でエネルギー集約的で、訓練が難しいことが証明されている。カリキュラム学習は、代わりに構造化されたトレーニング体制を利用する方法である。
論文参考訳（メタデータ） (2021-08-04T16:53:43Z)
Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文参考訳（メタデータ） (2020-04-12T09:05:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。