論文の概要: Variance-reduced Language Pretraining via a Mask Proposal Network
- arxiv url: http://arxiv.org/abs/2008.05333v2
- Date: Sun, 16 Aug 2020 15:40:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 04:36:20.848609
- Title: Variance-reduced Language Pretraining via a Mask Proposal Network
- Title(参考訳): マスク提案ネットワークによる可変化言語事前学習
- Authors: Liang Chen
- Abstract要約: 自己指導型学習(英: self-supervised learning, a.k.a.)は、自然言語処理において重要である。
本稿では,勾配分散低減の観点から問題に取り組む。
そこで我々は,マスク提案の最適分布を近似したMAsk Network(MAPNet)を導入した。
- 参考スコア(独自算出の注目度): 5.819397109258169
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning, a.k.a., pretraining, is important in natural
language processing. Most of the pretraining methods first randomly mask some
positions in a sentence and then train a model to recover the tokens at the
masked positions. In such a way, the model can be trained without human
labeling, and the massive data can be used with billion parameters. Therefore,
the optimization efficiency becomes critical. In this paper, we tackle the
problem from the view of gradient variance reduction. In particular, we first
propose a principled gradient variance decomposition theorem, which shows that
the variance of the stochastic gradient of the language pretraining can be
naturally decomposed into two terms: the variance that arises from the sample
of data in a batch, and the variance that arises from the sampling of the mask.
The second term is the key difference between selfsupervised learning and
supervised learning, which makes the pretraining slower. In order to reduce the
variance of the second part, we leverage the importance sampling strategy,
which aims at sampling the masks according to a proposal distribution instead
of the uniform distribution. It can be shown that if the proposal distribution
is proportional to the gradient norm, the variance of the sampling is reduced.
To improve efficiency, we introduced a MAsk Proposal Network (MAPNet), which
approximates the optimal mask proposal distribution and is trained end-to-end
along with the model. According to the experimental result, our model converges
much faster and achieves higher performance than the baseline BERT model.
- Abstract(参考訳): 自己指導型学習、つまり事前学習は自然言語処理において重要である。
事前学習法のほとんどは、まず文中のいくつかの位置をランダムにマスキングし、その後、マスクされた位置でトークンを復元するモデルを訓練する。
このようにして、モデルは人間のラベル付けなしでトレーニングすることができ、巨大なデータは数十億のパラメータで使用できる。
そのため、最適化効率が重要となる。
本稿では,勾配分散低減の観点からこの問題に取り組む。
特に,まず,言語前訓練の確率的勾配の分散が,バッチ内のデータのサンプルから生じる分散と,マスクのサンプリングから生じる分散の2つの用語に自然に分解できることを示す,原理的勾配分散分解定理を提案する。
第2項は、自己指導学習と教師あり学習の主な違いであり、事前学習が遅くなる。
第2部のばらつきを減らすために,一様分布ではなく提案分布に従ってマスクをサンプリングすることを目的としたサンプリング戦略を重要視する。
提案分布が勾配ノルムに比例すると,サンプリングのばらつきが小さくなることを示すことができる。
そこで我々は,マスク提案の最適分布を近似したMAsk Proposal Network (MAPNet)を導入し,モデルとともにエンドツーエンドで学習を行った。
実験結果によると,本モデルは,ベースラインbertモデルよりも高速に収束し,高い性能を実現する。
関連論文リスト
- DistPred: A Distribution-Free Probabilistic Inference Method for Regression and Forecasting [14.390842560217743]
本稿では、回帰予測タスクのためのDistPredという新しい手法を提案する。
予測分布と対象分布の差分を測定するための適切なスコアリングルールを、微分可能な離散形式に変換する。
これにより、モデルは単一のフォワードパスで多数のサンプルをサンプリングし、応答変数の潜在的分布を推定することができる。
論文 参考訳(メタデータ) (2024-06-17T10:33:00Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - TransFusion: Covariate-Shift Robust Transfer Learning for High-Dimensional Regression [11.040033344386366]
対象タスクの学習性能を限定的なサンプルで向上させるため, 新規な融合正規化器を用いた2段階の手法を提案する。
対象モデルの推定誤差に対して、漸近的境界が提供される。
提案手法を分散設定に拡張し,事前学習ファインタニング戦略を実現する。
論文 参考訳(メタデータ) (2024-04-01T14:58:16Z) - Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。
近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。
本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-11T13:44:49Z) - Learning Distributions via Monte-Carlo Marginalization [9.131712404284876]
サンプルから抽出可能な分布を学習する新しい手法を提案する。
モンテカルロ・マルギナライゼーション(MCMarg)はこの問題に対処するために提案されている。
提案手法は複雑な分布を学習するための強力なツールであり、プロセス全体が微分可能である。
論文 参考訳(メタデータ) (2023-08-11T19:08:06Z) - Distribution Mismatch Correction for Improved Robustness in Deep Neural
Networks [86.42889611784855]
正規化法は ノイズや入力の腐敗に関して 脆弱性を増大させる
本稿では,各層の活性化分布に適応する非教師なし非パラメトリック分布補正法を提案する。
実験により,提案手法は画像劣化の激しい影響を効果的に低減することを示した。
論文 参考訳(メタデータ) (2021-10-05T11:36:25Z) - Improving Self-supervised Pre-training via a Fully-Explored Masked
Language Model [57.77981008219654]
Masked Language Model (MLM)フレームワークは、自己教師型言語事前学習に広く採用されている。
そこで本研究では,テキストシーケンスを複数の非重複セグメントに分割するマスキング手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T21:28:14Z) - What causes the test error? Going beyond bias-variance via ANOVA [21.359033212191218]
現代の機械学習手法は、しばしば過度にパラメータ化され、細かいレベルでのデータへの適応を可能にする。
最近の研究は、なぜ過度なパラメータ化が一般化に役立つのかをより深く理解することを目的としている。
本研究では, 差分解析(ANOVA)を用いて, テスト誤差の分散を対称的に分解する手法を提案する。
論文 参考訳(メタデータ) (2020-10-11T05:21:13Z) - A One-step Approach to Covariate Shift Adaptation [82.01909503235385]
多くの機械学習シナリオにおけるデフォルトの前提は、トレーニングとテストサンプルは同じ確率分布から引き出されることである。
予測モデルと関連する重みを1つの最適化で共同で学習する新しいワンステップアプローチを提案する。
論文 参考訳(メタデータ) (2020-07-08T11:35:47Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。