論文の概要: Instance Regularization for Discriminative Language Model Pre-training
- arxiv url: http://arxiv.org/abs/2210.05471v1
- Date: Tue, 11 Oct 2022 14:16:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 14:02:46.180325
- Title: Instance Regularization for Discriminative Language Model Pre-training
- Title(参考訳): 判別型言語モデルの事前学習のためのインスタンス規則化
- Authors: Zhuosheng Zhang, Hai Zhao, Ming Zhou
- Abstract要約: 本研究は,言語モデル事前学習における劣化文から原文を復元する複雑性を推定することを提案する。
自然言語理解と読解のベンチマークによる実験結果から,本手法は事前学習の効率,有効性,堅牢性を向上することが示された。
- 参考スコア(独自算出の注目度): 108.41891836796366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Discriminative pre-trained language models (PrLMs) can be generalized as
denoising auto-encoders that work with two procedures, ennoising and denoising.
First, an ennoising process corrupts texts with arbitrary noising functions to
construct training instances. Then, a denoising language model is trained to
restore the corrupted tokens. Existing studies have made progress by optimizing
independent strategies of either ennoising or denosing. They treat training
instances equally throughout the training process, with little attention on the
individual contribution of those instances. To model explicit signals of
instance contribution, this work proposes to estimate the complexity of
restoring the original sentences from corrupted ones in language model
pre-training. The estimations involve the corruption degree in the ennoising
data construction process and the prediction confidence in the denoising
counterpart. Experimental results on natural language understanding and reading
comprehension benchmarks show that our approach improves pre-training
efficiency, effectiveness, and robustness. Code is publicly available at
https://github.com/cooelf/InstanceReg
- Abstract(参考訳): 弁別事前学習言語モデル(prlms)は、2つの手続き(ennoising と denoising )を扱う自動エンコーダのデノイジングとして一般化することができる。
まず、エンノナイジングプロセスは任意のノナイジング関数でテキストを破損させ、トレーニングインスタンスを構築する。
そして、劣化したトークンを復元するために、認知言語モデルを訓練する。
既存の研究は、エンノベーションまたはデノシングの独立戦略を最適化することで進歩している。
彼らはトレーニングプロセスを通じてトレーニングインスタンスを平等に扱うが、個々のコントリビュートにはほとんど注意を払わない。
事例貢献の明示的なシグナルをモデル化するために, 言語モデル事前学習において, 劣化した文から元の文を復元する複雑性を推定することを提案する。
推定には、注目データ構築プロセスの腐敗度と、注目データ構築プロセスの予測信頼度が含まれる。
自然言語理解と読み理解ベンチマークによる実験結果から,本手法は事前学習効率,有効性,頑健性が向上することが示された。
コードはhttps://github.com/cooelf/InstanceRegで公開されている。
関連論文リスト
- GanLM: Encoder-Decoder Pre-training with an Auxiliary Discriminator [114.8954615026781]
本稿では,補助判別器を導入して,エンコーダ・デコーダ事前学習のためのGANスタイルのモデルを提案する。
GanLMは2つのトレーニング済みの目標 – トークン検出の置き換えとトークン記述の置き換え – でトレーニングされている。
言語生成ベンチマークの実験では、強力な言語理解能力を持つ GanLM が、様々な強力な事前学習言語モデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-12-20T12:51:11Z) - Robustification of Multilingual Language Models to Real-world Noise with
Robust Contrastive Pretraining [14.087882550564169]
ノイズの多いデータに基づいてニューラルモデルのロバスト性を評価し,改良は英語に限られていることを示唆する。
事前訓練された多言語モデルの性能をベンチマークするために、5つの言語と4つのNLPタスクをカバーするノイズの多いデータセットを構築した。
本稿では,多言語事前学習モデルのゼロショット言語間ロバスト性を高めるために,ロバストコントラスト事前学習(RCP)を提案する。
論文 参考訳(メタデータ) (2022-10-10T15:40:43Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - How Robust is Neural Machine Translation to Language Imbalance in
Multilingual Tokenizer Training? [86.48323488619629]
トークン化学習コーパスにおいて,言語間でのデータ比が変化するにつれて,翻訳性能がどう変化するかを分析する。
言語が均等にサンプリングされる場合、比較的優れたパフォーマンスが観察されることが多いが、下流のパフォーマンスは、通常予想していたよりも、言語の不均衡に対して堅牢である。
論文 参考訳(メタデータ) (2022-04-29T17:50:36Z) - COCO-LM: Correcting and Contrasting Text Sequences for Language Model
Pretraining [59.169836983883656]
COCO-LMは、チャレンジングなエラーとテキストシーケンスの変換によって言語モデルを事前学習する新しい自己監視学習フレームワークです。
COCO-LMは、オリジナルのテキストシーケンスでマスク&予測トークンに補助言語モデルを採用しています。
分析の結果,coco-lmのアドバンテージは,困難なトレーニング信号,よりコンテキスト化されたトークン表現,正規化されたシーケンス表現であることがわかった。
論文 参考訳(メタデータ) (2021-02-16T22:24:29Z) - CAPT: Contrastive Pre-Training for Learning Denoised Sequence
Representations [42.86803751871867]
本稿では、雑音不変シーケンス表現を学習するために、ContrAstive Pre-Training(CAPT)を提案する。
CAPTは、教師なしのインスタンスワイドのトレーニング信号を通じて、元のシーケンスの表現と、その破損したバージョンとの一貫性を奨励する。
論文 参考訳(メタデータ) (2020-10-13T13:08:34Z) - Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。