論文の概要: Taking Notes on the Fly Helps BERT Pre-training
- arxiv url: http://arxiv.org/abs/2008.01466v2
- Date: Sun, 14 Mar 2021 15:37:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 00:14:52.754820
- Title: Taking Notes on the Fly Helps BERT Pre-training
- Title(参考訳): BBTの事前トレーニングに役立つフライノート
- Authors: Qiyu Wu, Chen Xing, Yatao Li, Guolin Ke, Di He, Tie-Yan Liu
- Abstract要約: Takeing Notes on the Fly (TNF) は、事前トレーニング中にフライで稀な単語のメモを取り、次回発生するときにモデルがそれらを理解するのに役立つ。
TNFは、文中のまれな単語によって引き起こされる不適切な意味をカバーするために、クロス文情報を用いるので、より良いデータ利用を提供する。
- 参考スコア(独自算出の注目度): 94.43953312613577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How to make unsupervised language pre-training more efficient and less
resource-intensive is an important research direction in NLP. In this paper, we
focus on improving the efficiency of language pre-training methods through
providing better data utilization. It is well-known that in language data
corpus, words follow a heavy-tail distribution. A large proportion of words
appear only very few times and the embeddings of rare words are usually poorly
optimized. We argue that such embeddings carry inadequate semantic signals,
which could make the data utilization inefficient and slow down the
pre-training of the entire model. To mitigate this problem, we propose Taking
Notes on the Fly (TNF), which takes notes for rare words on the fly during
pre-training to help the model understand them when they occur next time.
Specifically, TNF maintains a note dictionary and saves a rare word's
contextual information in it as notes when the rare word occurs in a sentence.
When the same rare word occurs again during training, the note information
saved beforehand can be employed to enhance the semantics of the current
sentence. By doing so, TNF provides better data utilization since
cross-sentence information is employed to cover the inadequate semantics caused
by rare words in the sentences. We implement TNF on both BERT and ELECTRA to
check its efficiency and effectiveness. Experimental results show that TNF's
training time is $60\%$ less than its backbone pre-training models when
reaching the same performance. When trained with the same number of iterations,
TNF outperforms its backbone methods on most of downstream tasks and the
average GLUE score. Source code is attached in the supplementary material.
- Abstract(参考訳): 教師なし言語の事前学習をより効率的でリソース集約の少ないものにする方法は、NLPにおいて重要な研究方向である。
本稿では,より優れたデータ利用を提供することにより,言語事前学習手法の効率化に焦点をあてる。
言語データコーパスでは、単語はヘビーテール分布に従うことが知られている。
単語のかなりの割合はわずか数回しか現れず、まれな単語の埋め込みは通常最適化が不十分である。
このような埋め込みはセマンティックな信号が不十分であるため、データの利用効率が低下し、モデル全体の事前学習が遅くなる可能性がある。
この問題を軽減するため,我々は,モデルが次回発生することを理解できるように,事前学習中のまれな単語のメモを取るtnf(take notes on the fly)を提案する。
具体的には、TNFはノート辞書を保持し、まれな単語の文脈情報を文中に稀な単語が発生したときのメモとして保存する。
トレーニング中に同じまれな単語が再び発生すると、前もって保存したメモ情報を使用して、現在の文の意味性を高めることができる。
これにより、TNFは、文中のまれな単語によって引き起こされる不適切な意味をカバーするために、クロス文情報を用いるため、より良いデータ利用を提供する。
BERTとELECTRAの両方にTNFを実装し,その効率性と有効性を確認した。
実験の結果、TNFのトレーニング時間は、同じパフォーマンスに達すると、バックボーン事前トレーニングモデルよりも60\%$安いことがわかった。
同じイテレーション数でトレーニングされた場合、TNFは、ダウンストリームタスクの大部分と平均GLUEスコアで、バックボーンメソッドよりも優れています。
ソースコードは補足材料に添付される。
関連論文リスト
- Enhancing Medical Specialty Assignment to Patients using NLP Techniques [0.0]
本稿では,計算効率を向上しつつ,優れた性能を実現する方法を提案する。
具体的には、キーワードを用いて、大規模なテキストコーパスで事前訓練された言語モデルより優れたディープラーニングアーキテクチャを訓練する。
その結果,テキスト分類におけるキーワードの利用により,分類性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2023-12-09T14:13:45Z) - Revisit Few-shot Intent Classification with PLMs: Direct Fine-tuning vs. Continual Pre-training [20.98770732015944]
少量のラベル付きデータのみを使用して、基礎となる意図に基づいて発話を分類するために、深層学習モデルを訓練する。
この課題に対するPLMの過度な適合問題は、予想されるほど深刻ではないため、継続事前学習は必須ではない可能性がある。
限られた利用可能なデータの利用を最大化するために,コンテキスト拡張法を提案し,逐次自己蒸留を利用して性能を向上させる。
論文 参考訳(メタデータ) (2023-06-08T15:26:52Z) - Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。
我々は,単語順序の重要性を維持するために強制的無効化を提案する。
実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-04-11T13:42:10Z) - Curriculum-Based Self-Training Makes Better Few-Shot Learners for
Data-to-Text Generation [56.98033565736974]
テキスト生成の困難さによって決定される並べ替え順序でラベルのないデータを活用するために,カリキュラムベースの自己学習(CBST)を提案する。
提案手法は、微調整およびタスク適応型事前学習法より優れており、データ・テキスト・ジェネレーションのわずかな設定で最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2022-06-06T16:11:58Z) - Sample Efficient Approaches for Idiomaticity Detection [6.481818246474555]
本研究は, 慣用性検出の効率的な手法を探索する。
特に,いくつかの分類法であるPET(Pattern Exploit Training)と,文脈埋め込みの効率的な方法であるBERTRAM(BERTRAM)の影響について検討した。
実験の結果,PETは英語のパフォーマンスを向上するが,ポルトガル語やガリシア語では効果が低下し,バニラmBERTと同程度の総合的な性能が得られた。
論文 参考訳(メタデータ) (2022-05-23T13:46:35Z) - How Should Pre-Trained Language Models Be Fine-Tuned Towards Adversarial
Robustness? [121.57551065856164]
本稿では,情報理論の観点から,新しい対角的微調整法としてロバスト・インフォーマティブ・ファインチューニング(RIFT)を提案する。
RIFTは、微調整プロセス全体を通して、事前訓練されたモデルから学んだ特徴を維持するために客観的モデルを奨励する。
実験の結果, RIFTは2つのNLPタスクにおいて, 最先端のタスクを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-22T05:04:41Z) - Rejuvenating Low-Frequency Words: Making the Most of Parallel Data in
Non-Autoregressive Translation [98.11249019844281]
知識蒸留(KD)は、非自己回帰翻訳(NAT)モデルを訓練するための合成データを構築するために一般的に用いられる。
低周波対象語に対するアライメントを向上するために,逆KDを提案する。
その結果,提案手法は翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-06-02T02:41:40Z) - Improving accuracy of rare words for RNN-Transducer through unigram
shallow fusion [9.071295269523068]
RNN-Tの稀な単語を改善するために,単グラム浅層核融合(USF)を提案する。
本手法は, 一般的なテストセットの劣化を伴わずに, 稀な単語の3.7%のWER比で性能を向上できることを示す。
論文 参考訳(メタデータ) (2020-11-30T22:06:02Z) - GiBERT: Introducing Linguistic Knowledge into BERT through a Lightweight
Gated Injection Method [29.352569563032056]
本稿では,言語知識を単語埋め込みの形で,事前学習したBERTに明示的に注入する手法を提案する。
依存性ベースと逆適合の埋め込みを注入する場合、複数のセマンティックな類似性データセットのパフォーマンス改善は、そのような情報が有益であり、現在元のモデルから欠落していることを示している。
論文 参考訳(メタデータ) (2020-10-23T17:00:26Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。