論文の概要: SAS: Self-Augmented Strategy for Language Model Pre-training
- arxiv url: http://arxiv.org/abs/2106.07176v1
- Date: Mon, 14 Jun 2021 05:57:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-16 04:07:58.634315
- Title: SAS: Self-Augmented Strategy for Language Model Pre-training
- Title(参考訳): SAS: 言語モデル事前学習のための自己拡張戦略
- Authors: Yifei Xu, Jingqiao Zhang, Ru He, Liangzhu Ge, Chao Yang, Cheng Yang,
Ying Nian Wu
- Abstract要約: 言語モデルの事前トレーニングにおけるほとんどのデータ拡張は、文脈に依存しない。
モデルに1つのフォワードパスを用いた自己拡張戦略 (SAS) を提案し, 次の時代におけるモデルトレーニングのための入力データを拡張した。
我々のSASは,計算GLUEタスクにおいて,ELECTRAや他の最先端モデルよりも同等あるいはより低コストで性能を向上することができる。
- 参考スコア(独自算出の注目度): 31.69657711092598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The core of a self-supervised learning method for pre-training language
models includes the design of appropriate data augmentation and corresponding
pre-training task(s). Most data augmentations in language model pre-training
are context-independent. The seminal contextualized augmentation recently
proposed by the ELECTRA requires a separate generator, which leads to extra
computation cost as well as the challenge in adjusting the capability of its
generator relative to that of the other model component(s). We propose a
self-augmented strategy (SAS) that uses a single forward pass through the model
to augment the input data for model training in the next epoch. Essentially our
strategy eliminates a separate generator network and uses only one network to
generate the data augmentation and undertake two pre-training tasks (the MLM
task and the RTD task) jointly, which naturally avoids the challenge in
adjusting the generator's capability as well as reduces the computation cost.
Additionally, our SAS is a general strategy such that it can seamlessly
incorporate many new techniques emerging recently or in the future, such as the
disentangled attention mechanism recently proposed by the DeBERTa model. Our
experiments show that our SAS is able to outperform the ELECTRA and other
state-of-the-art models in the GLUE tasks with the same or less computation
cost.
- Abstract(参考訳): 事前学習言語モデルのための自己教師型学習法のコアは、適切なデータ拡張と対応する事前学習タスクの設計を含む。
言語モデルの事前トレーニングにおけるほとんどのデータ拡張は、文脈に依存しない。
electraが最近提案した独創的なコンテキスト化拡張は、別のジェネレータを必要とするため、追加の計算コストと、他のモデルコンポーネントのそれと比較してジェネレータの能力を調整することの難しさをもたらす。
モデルに1つのフォワードパスを用いた自己拡張戦略 (SAS) を提案し, 次の時代におけるモデルトレーニングのための入力データを拡張した。
基本的に、我々の戦略は、別個のジェネレータネットワークを排除し、1つのネットワークのみを使用してデータ拡張を生成し、2つの事前学習タスク(MLMタスクとRTDタスク)を共同で実行することで、ジェネレータの能力調整の課題を自然に回避し、計算コストを低減します。
さらに,我々のSASは,DeBERTaモデルが最近提案した非絡み合いの注意機構など,最近あるいは将来に出現する多くの新しいテクニックをシームレスに組み込むための一般的な戦略である。
我々のSASは, GLUEタスクにおけるELECTRAや他の最先端モデルよりも, あるいはそれ以下の計算コストで性能を向上できることを示す。
関連論文リスト
- Self-Supervised Radio Pre-training: Toward Foundational Models for Spectrogram Learning [6.1339395157466425]
Foundational Deep Learning(DL)モデルは、多種多様で多様なデータセットに基づいてトレーニングされた一般的なモデルである。
本稿では,無線信号を用いた基礎DLモデルの事前学習のための,新しい自己教師型学習手法であるMasked Spectrogram Modelingを紹介する。
論文 参考訳(メタデータ) (2024-11-14T23:56:57Z) - Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - EsaCL: Efficient Continual Learning of Sparse Models [10.227171407348326]
連続的な学習設定の主な課題は、以前に学習したタスクを実行する方法を忘れずに、タスクのシーケンスを効率的に学習することである。
本研究では,モデルの予測力に悪影響を及ぼすことなく,冗長なパラメータを自動生成する,スパースモデル(EsaCL)の効率的な連続学習法を提案する。
論文 参考訳(メタデータ) (2024-01-11T04:59:44Z) - Instructed Language Models with Retrievers Are Powerful Entity Linkers [87.16283281290053]
Instructed Generative Entity Linker (INSGENEL)は、カジュアル言語モデルが知識ベース上でエンティティリンクを実行することを可能にする最初のアプローチである。
INSGENEL は、+6.8 F1 点が平均的に上昇する以前の生成的代替よりも優れていた。
論文 参考訳(メタデータ) (2023-11-06T16:38:51Z) - How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。
線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文 参考訳(メタデータ) (2023-10-12T15:01:43Z) - Fast-ELECTRA for Efficient Pre-training [83.29484808667532]
ELECTRAは補助モデルに置き換えられたシーケンス内のトークンを検出して、言語モデルを事前訓練する。
本稿では,既存の言語モデルを補助モデルとして活用したFast-ELECTRAを提案する。
提案手法は,最先端のELECTRA型事前学習手法の性能に匹敵するが,補助モデルの連成学習による計算とメモリコストは著しく削減される。
論文 参考訳(メタデータ) (2023-10-11T09:55:46Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z) - Maximizing Efficiency of Language Model Pre-training for Learning
Representation [6.518508607788086]
ELECTRAは、事前訓練された言語モデルの計算効率を改善するための新しいアプローチである。
本研究は,事前学習プロセスの効率を最大化する適応早期終了戦略を提案する。
論文 参考訳(メタデータ) (2021-10-13T10:25:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。