論文の概要: On Losses for Modern Language Models
- arxiv url: http://arxiv.org/abs/2010.01694v1
- Date: Sun, 4 Oct 2020 21:44:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 03:05:14.023762
- Title: On Losses for Modern Language Models
- Title(参考訳): 現代言語モデルの損失について
- Authors: Stephane Aroca-Ouellette, Frank Rudzicz
- Abstract要約: NSPは文脈分割と浅瀬意味信号による訓練に有害であることを示す。
マルチタスク事前トレーニングフレームワークで複数のタスクを使用すると、単一の補助タスクを使用するよりも優れた結果が得られる。
- 参考スコア(独自算出の注目度): 18.56205816291398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: BERT set many state-of-the-art results over varied NLU benchmarks by
pre-training over two tasks: masked language modelling (MLM) and next sentence
prediction (NSP), the latter of which has been highly criticized. In this
paper, we 1) clarify NSP's effect on BERT pre-training, 2) explore fourteen
possible auxiliary pre-training tasks, of which seven are novel to modern
language models, and 3) investigate different ways to include multiple tasks
into pre-training. We show that NSP is detrimental to training due to its
context splitting and shallow semantic signal. We also identify six auxiliary
pre-training tasks -- sentence ordering, adjacent sentence prediction, TF
prediction, TF-IDF prediction, a FastSent variant, and a Quick Thoughts variant
-- that outperform a pure MLM baseline. Finally, we demonstrate that using
multiple tasks in a multi-task pre-training framework provides better results
than using any single auxiliary task. Using these methods, we outperform BERT
Base on the GLUE benchmark using fewer than a quarter of the training tokens.
- Abstract(参考訳): BERTは、様々なNLUベンチマークに対して、マスク言語モデリング(MLM)と次の文予測(NSP)という2つのタスクを事前訓練することで、最先端の結果を多数設定した。
本稿では,
1) BERTプレトレーニングにおけるNSPの効果を明らかにする。
2)14の補助事前学習課題を探索し,そのうち7つが現代言語モデルに斬新である。
3) 複数のタスクを事前学習に含めるさまざまな方法を検討する。
NSPは文脈分割と浅瀬意味信号による訓練に有害であることを示す。
また,文順序,隣接文予測,TF-IDF予測,TF-IDF予測,FastSent変種,Quick Thoughts変種という,純粋なMLMベースラインを上回る6つの補助的事前学習タスクも同定した。
最後に,複数タスクをマルチタスク事前学習フレームワークで使用することで,一つの補助タスクよりも優れた結果が得られることを示す。
これらの手法を用いて、トレーニングトークンの4分の1以下を用いて、GLUEベンチマークでBERT Baseを上回りました。
関連論文リスト
- Instruction Pre-Training: Language Models are Supervised Multitask Learners [115.95022434390181]
本稿では,事前学習言語モデル(LM)に対して,命令応答対を用いた大規模生コーパスを付加するフレームワークを提案する。
実験では,40以上のタスクカテゴリをカバーする2億の命令応答ペアを合成し,インストラクション事前学習の有効性を検証する。
論文 参考訳(メタデータ) (2024-06-20T16:55:33Z) - A Multi-Task Semantic Decomposition Framework with Task-specific
Pre-training for Few-Shot NER [26.008350261239617]
マルチタスク・セマンティック・デコンストラクション・フレームワークを提案する。
本稿では,MLM(Demonstration-based Masked Language Modeling)とクラスコントラスト識別(Class Contrastive Discrimination)の2つの新しい事前学習タスクを紹介する。
下流のメインタスクでは,エンティティ分類のための2つの異なるセマンティック情報の統合を容易にするセマンティックデコンポーザリング手法を用いたマルチタスク共同最適化フレームワークを導入する。
論文 参考訳(メタデータ) (2023-08-28T12:46:21Z) - Understanding and Improving Sequence-to-Sequence Pretraining for Neural
Machine Translation [48.50842995206353]
本研究は,Seq2Seqプレトレーニングと従来のエンコーダによるNMTの事前トレーニングとの主な違いである,共同事前学習デコーダの影響について検討する。
我々は、ドメインと目的の相違を緩和するために、ドメイン内の事前訓練と入力適応という、シンプルで効果的な戦略を提案する。
論文 参考訳(メタデータ) (2022-03-16T07:36:28Z) - Unified Multimodal Pre-training and Prompt-based Tuning for
Vision-Language Understanding and Generation [86.26522210882699]
視覚言語理解と生成のための統一型マルチモーダル事前学習を提案する。
提案したUniVLは、理解タスクと生成タスクの両方を扱うことができる。
実験の結果,同じモデルを用いた場合,理解タスクと生成タスクとの間にはトレードオフがあることが判明した。
論文 参考訳(メタデータ) (2021-12-10T14:59:06Z) - NSP-BERT: A Prompt-based Zero-Shot Learner Through an Original
Pre-training Task--Next Sentence Prediction [14.912579358678212]
プロンプトを使用して、プロンプトベース学習やプロンプトラーニングとしても知られる様々な下流タスクを実行することは、最近、プレトレインとファインチューンパラダイムと比較して大きな成功を収めている。
本稿では,RoBERTa や他のモデルに放棄された BERT 独自の事前学習タスク-Next Sentence Prediction (NSP) を用いて,ゼロショットシナリオで複数の NLP タスクを達成しようとする。
トークンレベルの技法とは異なり、我々の文レベルのプロンプトベースの方法であるNSP-BERTは、予測されるプロンプトの長さや位置を固定する必要がなく、エンティティリンクのようなタスクを処理できる。
論文 参考訳(メタデータ) (2021-09-08T11:57:08Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z) - Hierarchical Multitask Learning Approach for BERT [0.36525095710982913]
BERTは、マスク付き言語モデル(masked LM)と次の文予測(NSP)である2つのタスクを解くことで埋め込みを学習する
BERT事前学習には階層型マルチタスク学習アプローチを採用する。
この結果から,タスク階層を事前学習に組み込むことで,組込み性能が向上することが示唆された。
論文 参考訳(メタデータ) (2020-10-17T09:23:04Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z) - Multilingual Denoising Pre-training for Neural Machine Translation [132.66750663226287]
mBART(mBART)は、大規模モノリンガルコーパスで事前訓練されたシーケンスからシーケンスまでの自動エンコーダである。
mBARTは、完全なシーケンス・ツー・シーケンスモデルを事前訓練する最初の方法の1つである。
論文 参考訳(メタデータ) (2020-01-22T18:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。