論文の概要: Fast-ELECTRA for Efficient Pre-training
- arxiv url: http://arxiv.org/abs/2310.07347v1
- Date: Wed, 11 Oct 2023 09:55:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 23:22:08.777768
- Title: Fast-ELECTRA for Efficient Pre-training
- Title(参考訳): 高精度プレトレーニングのための高速ELECTRA
- Authors: Chengyu Dong, Liyuan Liu, Hao Cheng, Jingbo Shang, Jianfeng Gao,
Xiaodong Liu
- Abstract要約: ELECTRAは補助モデルに置き換えられたシーケンス内のトークンを検出して、言語モデルを事前訓練する。
本稿では,既存の言語モデルを補助モデルとして活用したFast-ELECTRAを提案する。
提案手法は,最先端のELECTRA型事前学習手法の性能に匹敵するが,補助モデルの連成学習による計算とメモリコストは著しく削減される。
- 参考スコア(独自算出の注目度): 83.29484808667532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: ELECTRA pre-trains language models by detecting tokens in a sequence that
have been replaced by an auxiliary model. Although ELECTRA offers a significant
boost in efficiency, its potential is constrained by the training cost brought
by the auxiliary model. Notably, this model, which is jointly trained with the
main model, only serves to assist the training of the main model and is
discarded post-training. This results in a substantial amount of training cost
being expended in vain. To mitigate this issue, we propose Fast-ELECTRA, which
leverages an existing language model as the auxiliary model. To construct a
learning curriculum for the main model, we smooth its output distribution via
temperature scaling following a descending schedule. Our approach rivals the
performance of state-of-the-art ELECTRA-style pre-training methods, while
significantly eliminating the computation and memory cost brought by the joint
training of the auxiliary model. Our method also reduces the sensitivity to
hyper-parameters and enhances the pre-training stability.
- Abstract(参考訳): ELECTRAは補助モデルに置き換えられたシーケンス内のトークンを検出して、言語モデルを事前訓練する。
ELECTRAは効率を大幅に向上させるが、そのポテンシャルは補助モデルによってもたらされる訓練コストに制約される。
特に、このモデルは、メインモデルと共同で訓練されており、メインモデルのトレーニングを補助するだけであり、訓練後に破棄される。
その結果、かなりのトレーニングコストが無駄に費やされることになる。
本稿では,既存の言語モデルを補助モデルとして活用するFast-ELECTRAを提案する。
主モデルの学習カリキュラムを構築するために,下降スケジュールに従って,温度スケーリングによる出力分布の円滑化を図る。
提案手法は,最先端のELECTRA方式の事前学習手法と競合するが,補助モデルの協調訓練による計算とメモリコストは著しく削減される。
また,過度パラメータに対する感度を低減し,事前学習安定性を向上させる。
関連論文リスト
- Self-Supervised Radio Pre-training: Toward Foundational Models for Spectrogram Learning [6.1339395157466425]
Foundational Deep Learning(DL)モデルは、多種多様で多様なデータセットに基づいてトレーニングされた一般的なモデルである。
本稿では,無線信号を用いた基礎DLモデルの事前学習のための,新しい自己教師型学習手法であるMasked Spectrogram Modelingを紹介する。
論文 参考訳(メタデータ) (2024-11-14T23:56:57Z) - Machine Unlearning on Pre-trained Models by Residual Feature Alignment Using LoRA [15.542668474378633]
本稿では,事前学習モデルを用いた新しい機械学習手法を提案する。
LoRAを利用して、モデルの中間機能を事前訓練された特徴と残像に分解する。
本手法は,保持集合上のゼロ残差を学習し,未学習集合上でシフト残差を学習することを目的としている。
論文 参考訳(メタデータ) (2024-11-13T08:56:35Z) - DistiLLM: Towards Streamlined Distillation for Large Language Models [53.46759297929675]
DistiLLMは自動回帰言語モデルのためのより効率的で効率的なKDフレームワークである。
DisiLLMは,(1)新しいスキューKulback-Leibler分散損失,(2)学生生成出力の効率向上を目的とした適応型オフ政治アプローチの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-02-06T11:10:35Z) - Preparing Lessons for Progressive Training on Language Models [75.88952808979087]
人工知能におけるトランスフォーマーの急速な進歩は、資源消費の増加と温室効果ガス排出のコストを犠牲にしている。
我々は,低層学習におけるtextbflayer functitextbfonality による extextbfpanding textbfoperation の授業をプレptextbfars で行うApolloを提案する。
実験では、アポロは最先端の加速比を達成し、事前訓練されたモデルを用いた手法にさえ対抗できることを示した。
論文 参考訳(メタデータ) (2024-01-17T13:04:14Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Your Autoregressive Generative Model Can be Better If You Treat It as an
Energy-Based One [83.5162421521224]
本稿では,自己回帰生成モデルの学習のための独自のE-ARM法を提案する。
E-ARMは、よく設計されたエネルギーベースの学習目標を活用する。
我々は、E-ARMを効率的に訓練でき、露光バイアス問題を緩和できることを示した。
論文 参考訳(メタデータ) (2022-06-26T10:58:41Z) - METRO: Efficient Denoising Pretraining of Large Scale Autoencoding
Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。
我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。
結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-04-13T21:39:15Z) - Maximizing Efficiency of Language Model Pre-training for Learning
Representation [6.518508607788086]
ELECTRAは、事前訓練された言語モデルの計算効率を改善するための新しいアプローチである。
本研究は,事前学習プロセスの効率を最大化する適応早期終了戦略を提案する。
論文 参考訳(メタデータ) (2021-10-13T10:25:06Z) - SAS: Self-Augmented Strategy for Language Model Pre-training [31.69657711092598]
言語モデルの事前トレーニングにおけるほとんどのデータ拡張は、文脈に依存しない。
モデルに1つのフォワードパスを用いた自己拡張戦略 (SAS) を提案し, 次の時代におけるモデルトレーニングのための入力データを拡張した。
我々のSASは,計算GLUEタスクにおいて,ELECTRAや他の最先端モデルよりも同等あるいはより低コストで性能を向上することができる。
論文 参考訳(メタデータ) (2021-06-14T05:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。