論文の概要: COCO-LM: Correcting and Contrasting Text Sequences for Language Model
Pretraining
- arxiv url: http://arxiv.org/abs/2102.08473v1
- Date: Tue, 16 Feb 2021 22:24:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-18 14:49:19.730939
- Title: COCO-LM: Correcting and Contrasting Text Sequences for Language Model
Pretraining
- Title(参考訳): COCO-LM:言語モデル事前学習のためのテキストシーケンスの修正とコントラスト
- Authors: Yu Meng, Chenyan Xiong, Payal Bajaj, Saurabh Tiwary, Paul Bennett,
Jiawei Han, Xia Song
- Abstract要約: COCO-LMは、チャレンジングなエラーとテキストシーケンスの変換によって言語モデルを事前学習する新しい自己監視学習フレームワークです。
COCO-LMは、オリジナルのテキストシーケンスでマスク&予測トークンに補助言語モデルを採用しています。
分析の結果,coco-lmのアドバンテージは,困難なトレーニング信号,よりコンテキスト化されたトークン表現,正規化されたシーケンス表現であることがわかった。
- 参考スコア(独自算出の注目度): 59.169836983883656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present COCO-LM, a new self-supervised learning framework that pretrains
Language Models by COrrecting challenging errors and COntrasting text
sequences. COCO-LM employs an auxiliary language model to mask-and-predict
tokens in original text sequences. It creates more challenging pretraining
inputs, where noises are sampled based on their likelihood in the auxiliary
language model. COCO-LM then pretrains with two tasks: The first task,
corrective language modeling, learns to correct the auxiliary model's
corruptions by recovering the original tokens. The second task, sequence
contrastive learning, ensures that the language model generates sequence
representations that are invariant to noises and transformations. In our
experiments on the GLUE and SQuAD benchmarks, COCO-LM outperforms recent
pretraining approaches in various pretraining settings and few-shot
evaluations, with higher pretraining efficiency. Our analyses reveal that
COCO-LM's advantages come from its challenging training signals, more
contextualized token representations, and regularized sequence representations.
- Abstract(参考訳): 我々は,言語モデルを事前学習する,新たな自己教師型学習フレームワークCOCO-LMを提案する。
COCO-LMは、オリジナルのテキストシーケンスでマスク&予測トークンに補助言語モデルを採用しています。
これは、補助言語モデルの可能性に基づいてノイズをサンプリングする、より困難な事前トレーニング入力を作成します。
最初のタスクである修正言語モデリングは、元のトークンを復元することで、補助モデルの破損を修正することを学習します。
第2のタスクであるシーケンスコントラスト学習は、言語モデルがノイズや変換に不変なシーケンス表現を生成することを保証する。
GLUEおよびSQuADベンチマークの実験では、COCO-LMは、様々なプリトレーニング設定およびマルチショット評価における最近のプリトレーニングアプローチを上回り、プリトレーニング効率が向上します。
分析の結果,coco-lmのアドバンテージは,困難なトレーニング信号,よりコンテキスト化されたトークン表現,正規化されたシーケンス表現であることがわかった。
関連論文リスト
- Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Assessing Phrase Break of ESL Speech with Pre-trained Language Models
and Large Language Models [7.782346535009883]
本研究では,事前学習言語モデル (PLM) と大規模言語モデル (LLM) を用いて,ESL学習者の音声における句分割の評価手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T07:10:39Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - GanLM: Encoder-Decoder Pre-training with an Auxiliary Discriminator [114.8954615026781]
本稿では,補助判別器を導入して,エンコーダ・デコーダ事前学習のためのGANスタイルのモデルを提案する。
GanLMは2つのトレーニング済みの目標 – トークン検出の置き換えとトークン記述の置き換え – でトレーニングされている。
言語生成ベンチマークの実験では、強力な言語理解能力を持つ GanLM が、様々な強力な事前学習言語モデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-12-20T12:51:11Z) - Instance Regularization for Discriminative Language Model Pre-training [108.41891836796366]
本研究は,言語モデル事前学習における劣化文から原文を復元する複雑性を推定することを提案する。
自然言語理解と読解のベンチマークによる実験結果から,本手法は事前学習の効率,有効性,堅牢性を向上することが示された。
論文 参考訳(メタデータ) (2022-10-11T14:16:37Z) - Bi-Granularity Contrastive Learning for Post-Training in Few-Shot Scene [10.822477939237459]
トークンレベルとシーケンスレベルの両方のコントラスト学習を統合するために,ポストトレーニングのためのコントラストマスク言語モデリング(CMLM)を提案する。
CMLMは、データ拡張を必要とせずに、数ショット設定で、最近のいくつかのポストトレーニングメソッドを超越している。
論文 参考訳(メタデータ) (2021-06-04T08:17:48Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z) - CAPT: Contrastive Pre-Training for Learning Denoised Sequence
Representations [42.86803751871867]
本稿では、雑音不変シーケンス表現を学習するために、ContrAstive Pre-Training(CAPT)を提案する。
CAPTは、教師なしのインスタンスワイドのトレーニング信号を通じて、元のシーケンスの表現と、その破損したバージョンとの一貫性を奨励する。
論文 参考訳(メタデータ) (2020-10-13T13:08:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。