論文の概要: Curriculum learning for language modeling
- arxiv url: http://arxiv.org/abs/2108.02170v1
- Date: Wed, 4 Aug 2021 16:53:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-05 14:26:17.357135
- Title: Curriculum learning for language modeling
- Title(参考訳): 言語モデリングのためのカリキュラム学習
- Authors: Daniel Campos
- Abstract要約: 自然言語処理コミュニティにとって、言語モデルはトランスフォーメーションであることが証明されている。
これらのモデルは高価でエネルギー集約的で、訓練が難しいことが証明されている。
カリキュラム学習は、代わりに構造化されたトレーニング体制を利用する方法である。
- 参考スコア(独自算出の注目度): 2.2475845406292714
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Language Models like ELMo and BERT have provided robust representations of
natural language, which serve as the language understanding component for a
diverse range of downstream tasks.Curriculum learning is a method that employs
a structured training regime instead, which has been leveraged in computer
vision and machine translation to improve model training speed and model
performance. While language models have proven transformational for the natural
language processing community, these models have proven expensive,
energy-intensive, and challenging to train. In this work, we explore the effect
of curriculum learning on language model pretraining using various
linguistically motivated curricula and evaluate transfer performance on the
GLUE Benchmark. Despite a broad variety of training methodologies and
experiments we do not find compelling evidence that curriculum learning methods
improve language model training.
- Abstract(参考訳): elmoやbertといった言語モデルは、さまざまな下流タスクの言語理解コンポーネントとして機能する、自然言語の堅牢な表現を提供してきた。curriculum learningは、代わりに構造化されたトレーニングレジームを使用する方法であり、コンピュータビジョンや機械翻訳で活用され、モデルのトレーニング速度とモデルパフォーマンスが向上している。
自然言語処理コミュニティにとって言語モデルは変革的であることが証明されているが、これらのモデルは高価でエネルギー集約的で訓練が難しいことが証明されている。
本研究では,カリキュラム学習が言語モデル事前学習に与える影響について検討し,GLUEベンチマーク上での伝達性能を評価する。
様々な訓練方法や実験にもかかわらず、カリキュラム学習手法が言語モデル訓練を改善するという説得力のある証拠は見つからない。
関連論文リスト
- MoE-CT: A Novel Approach For Large Language Models Training With Resistance To Catastrophic Forgetting [53.77590764277568]
ベースモデルの学習を多言語拡張プロセスから分離する新しいMoE-CTアーキテクチャを提案する。
我々の設計では、元のLLMパラメータを凍結し、高リソース言語のパフォーマンスを保護しますが、様々な言語データセットに基づいてトレーニングされたMoEモジュールは、低リソース言語の習熟度を向上します。
論文 参考訳(メタデータ) (2024-06-25T11:03:45Z) - Explicit Morphological Knowledge Improves Pre-training of Language
Models for Hebrew [19.4968960182412]
事前学習フェーズに明示的な形態的知識を組み込むことで、形態学的に豊かな言語に対するPLMの性能を向上させることができるという仮説を考察する。
本研究では, モデルが生テキスト以外の形態的手がかりを活用できるように, 様々な形態的トークン化手法を提案する。
実験により, 形態素によるトークン化は, 標準言語に依存しないトークン化と比較して, 改良された結果を示すことが示された。
論文 参考訳(メタデータ) (2023-11-01T17:02:49Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Unsupervised Improvement of Factual Knowledge in Language Models [4.5788796239850225]
マスケッド言語モデリングは、大規模言語モデルの事前訓練において重要な役割を果たす。
本稿では,様々な知識集約型タスクにおいて,言語モデルの性能を向上させる方法として,事前学習に影響を与えるアプローチを提案する。
論文 参考訳(メタデータ) (2023-04-04T07:37:06Z) - LERT: A Linguistically-motivated Pre-trained Language Model [67.65651497173998]
本稿では,3種類の言語特徴を学習する事前学習型言語モデルLERTを提案する。
我々は,中国における10のNLUタスクについて広範な実験を行い,LERTが大きな改善をもたらすことを示す実験結果を得た。
論文 参考訳(メタデータ) (2022-11-10T05:09:16Z) - Improving Policy Learning via Language Dynamics Distillation [87.27583619910338]
本稿では,言語記述による実演を前提とした環境動態予測モデルであるLanguage Dynamics Distillation(LDD)を提案する。
実演における言語記述は,環境全体にわたるサンプル効率と一般化を改善することを示す。
論文 参考訳(メタデータ) (2022-09-30T19:56:04Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - Cross-lingual Transferring of Pre-trained Contextualized Language Models [73.97131976850424]
本稿では,PRLMのための新しい言語間モデル転送フレームワークTreLMを提案する。
シンボルの順序と言語間のシーケンス長の差に対処するため,中間的なTRILayer構造を提案する。
提案手法は,スクラッチから学習した言語モデルに対して,性能と効率の両面で,限られたデータで著しく優れることを示す。
論文 参考訳(メタデータ) (2021-07-27T06:51:13Z) - HerBERT: Efficiently Pretrained Transformer-based Language Model for
Polish [4.473327661758546]
本論文では,ポーランド語に焦点をあてた最初のアブレーション研究について述べる。
多言語モデルから単言語モデルへの知識伝達の事前学習手順を設計・評価します。
提案された手順に基づいて、ポーランドのBERTベースの言語モデルであるHerBERTが訓練される。
論文 参考訳(メタデータ) (2021-05-04T20:16:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。