論文の概要: CAPT: Contrastive Pre-Training for Learning Denoised Sequence
Representations
- arxiv url: http://arxiv.org/abs/2010.06351v4
- Date: Fri, 30 Oct 2020 03:47:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 23:39:32.021401
- Title: CAPT: Contrastive Pre-Training for Learning Denoised Sequence
Representations
- Title(参考訳): CAPT:Denoized Sequence Representationを学習するための対照的な事前学習
- Authors: Fuli Luo, Pengcheng Yang, Shicheng Li, Xuancheng Ren, Xu Sun
- Abstract要約: 本稿では、雑音不変シーケンス表現を学習するために、ContrAstive Pre-Training(CAPT)を提案する。
CAPTは、教師なしのインスタンスワイドのトレーニング信号を通じて、元のシーケンスの表現と、その破損したバージョンとの一貫性を奨励する。
- 参考スコア(独自算出の注目度): 42.86803751871867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained self-supervised models such as BERT have achieved striking
success in learning sequence representations, especially for natural language
processing. These models typically corrupt the given sequences with certain
types of noise, such as masking, shuffling, or substitution, and then try to
recover the original input. However, such pre-training approaches are prone to
learning representations that are covariant with the noise, leading to the
discrepancy between the pre-training and fine-tuning stage. To remedy this, we
present ContrAstive Pre-Training (CAPT) to learn noise invariant sequence
representations. The proposed CAPT encourages the consistency between
representations of the original sequence and its corrupted version via
unsupervised instance-wise training signals. In this way, it not only
alleviates the pretrain-finetune discrepancy induced by the noise of
pre-training, but also aids the pre-trained model in better capturing global
semantics of the input via more effective sentence-level supervision. Different
from most prior work that focuses on a particular modality, comprehensive
empirical evidence on 11 natural language understanding and cross-modal tasks
illustrates that CAPT is applicable for both language and vision-language
tasks, and obtains surprisingly consistent improvement, including 0.6\%
absolute gain on GLUE benchmarks and 0.8\% absolute increment on
$\text{NLVR}^2$.
- Abstract(参考訳): BERTのような事前訓練された自己教師型モデルは、特に自然言語処理において、シーケンス表現の学習において大きな成功を収めている。
これらのモデルは通常、与えられたシーケンスをマスキング、シャッフル、置換などの特定の種類のノイズで破壊し、元の入力を復元しようとする。
しかし、そのような事前学習アプローチはノイズと共変する表現を学習する傾向があるため、事前学習と微調整の段階の相違が生じる。
そこで本研究では,ノイズ不変列表現を学習するためのコントラストプリトレーニング(capt)を提案する。
提案したCAPTは、教師なしのインスタンスワイドトレーニング信号を介して、元のシーケンスの表現と破損したバージョンとの整合性を促進する。
このように、事前訓練のノイズによって引き起こされる事前訓練-ファイントゥン差を緩和するだけでなく、より効果的な文レベルの監督によって入力のグローバルな意味をよりよく把握する事前訓練モデルを支援する。
11の自然言語理解とクロスモーダルタスクに関する包括的な経験的エビデンスから、CAPTは言語と視覚言語の両方のタスクに適用可能であることを示し、GLUEベンチマークの0.6\%、$\text{NLVR}^2$での0.8\%の絶対増分を含む驚くほど一貫した改善が得られる。
関連論文リスト
- Improved Visual Fine-tuning with Natural Language Supervision [36.250244364023665]
視覚的事前学習モデルの微調整は、大規模事前学習データからの意味情報を活用することができる。
術前訓練した背骨における破折性忘れの問題は、微調整のために広く研究されている。
固定テキスト分類器から得られた参照分布を導入し,学習した視覚分類器の正規化を支援する。
論文 参考訳(メタデータ) (2023-04-04T03:08:02Z) - Instance Regularization for Discriminative Language Model Pre-training [108.41891836796366]
本研究は,言語モデル事前学習における劣化文から原文を復元する複雑性を推定することを提案する。
自然言語理解と読解のベンチマークによる実験結果から,本手法は事前学習の効率,有効性,堅牢性を向上することが示された。
論文 参考訳(メタデータ) (2022-10-11T14:16:37Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Bi-Granularity Contrastive Learning for Post-Training in Few-Shot Scene [10.822477939237459]
トークンレベルとシーケンスレベルの両方のコントラスト学習を統合するために,ポストトレーニングのためのコントラストマスク言語モデリング(CMLM)を提案する。
CMLMは、データ拡張を必要とせずに、数ショット設定で、最近のいくつかのポストトレーニングメソッドを超越している。
論文 参考訳(メタデータ) (2021-06-04T08:17:48Z) - Consistency Training with Virtual Adversarial Discrete Perturbation [17.311821099484987]
本稿では,オリジナル入力と摂動入力とが類似するトレーニングモデルの予測を強制する効果的な一貫性トレーニングフレームワークを提案する。
少数のトークンを置き換えることで得られる仮想対向離散ノイズは、トレーニングモデルの決定境界を効率的にプッシュする。
論文 参考訳(メタデータ) (2021-04-15T07:49:43Z) - COCO-LM: Correcting and Contrasting Text Sequences for Language Model
Pretraining [59.169836983883656]
COCO-LMは、チャレンジングなエラーとテキストシーケンスの変換によって言語モデルを事前学習する新しい自己監視学習フレームワークです。
COCO-LMは、オリジナルのテキストシーケンスでマスク&予測トークンに補助言語モデルを採用しています。
分析の結果,coco-lmのアドバンテージは,困難なトレーニング信号,よりコンテキスト化されたトークン表現,正規化されたシーケンス表現であることがわかった。
論文 参考訳(メタデータ) (2021-02-16T22:24:29Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z) - Syntactic Data Augmentation Increases Robustness to Inference Heuristics [27.513414694720716]
BERTのような事前訓練されたニューラルネットワークモデルは、標準データセットに対して高い精度を示すが、制御されたチャレンジセットに対する単語順序に対する感度の驚くべき欠如がある。
我々は,MNLIコーパスからの文に構文変換を適用して生成した構文的情報的例を用いて,標準学習セットを増強するいくつかの手法について検討する。
MNLIテストセットの性能に影響を与えることなく、単語の順序に対する感度を0.28から0.73に診断する制御例におけるBERTの精度を改善した。
論文 参考訳(メタデータ) (2020-04-24T21:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。