論文の概要: Speeding up Deep Model Training by Sharing Weights and Then Unsharing
- arxiv url: http://arxiv.org/abs/2110.03848v1
- Date: Fri, 8 Oct 2021 01:23:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-11 13:37:30.840959
- Title: Speeding up Deep Model Training by Sharing Weights and Then Unsharing
- Title(参考訳): 重みの共有とアンシェアによる深層モデルトレーニングの高速化
- Authors: Shuo Yang, Le Hou, Xiaodan Song, Qiang Liu, Denny Zhou
- Abstract要約: 本稿では,BERTモデルの簡易かつ効率的な学習手法を提案する。
提案手法では,繰り返しモジュールのスタックを含むBERTの特別な構造を利用する。
- 参考スコア(独自算出の注目度): 23.35912133295125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a simple and efficient approach for training the BERT model. Our
approach exploits the special structure of BERT that contains a stack of
repeated modules (i.e., transformer encoders). Our proposed approach first
trains BERT with the weights shared across all the repeated modules till some
point. This is for learning the commonly shared component of weights across all
repeated layers. We then stop weight sharing and continue training until
convergence. We present theoretic insights for training by sharing weights then
unsharing with analysis for simplified models. Empirical experiments on the
BERT model show that our method yields better performance of trained models,
and significantly reduces the number of training iterations.
- Abstract(参考訳): 我々は, 単純かつ効率的な bert モデルの学習手法を提案する。
提案手法では,繰り返しモジュール(トランスフォーマーエンコーダ)のスタックを含むBERTの特別な構造を利用する。
提案手法はまずBERTを各モジュール間の重みを共有してある時点まで訓練する。
これは、繰り返し繰り返されるすべての層で、重みの共通部分を学ぶためです。
その後、重量共有を停止し、収束するまでトレーニングを継続します。
重みの共有による学習のための理論的洞察を、単純化されたモデルの解析と無関係に提示する。
BERTモデルの実証実験により,本手法はトレーニングモデルの優れた性能を示し,トレーニングの繰り返し回数を大幅に削減することがわかった。
関連論文リスト
- BEND: Bagging Deep Learning Training Based on Efficient Neural Network Diffusion [56.9358325168226]
BEND(Efficient Neural Network Diffusion)に基づくバッグング深層学習学習アルゴリズムを提案する。
我々のアプローチは単純だが効果的であり、まず複数のトレーニングされたモデルの重みとバイアスを入力として、オートエンコーダと潜伏拡散モデルを訓練する。
提案したBENDアルゴリズムは,元のトレーニングモデルと拡散モデルの両方の平均および中央値の精度を一貫して向上させることができる。
論文 参考訳(メタデータ) (2024-03-23T08:40:38Z) - Fast Propagation is Better: Accelerating Single-Step Adversarial
Training via Sampling Subnetworks [69.54774045493227]
逆行訓練の欠点は、逆行例の生成によって引き起こされる計算オーバーヘッドである。
モデルの内部構造ブロックを利用して効率を向上させることを提案する。
従来の手法と比較して,本手法はトレーニングコストを削減できるだけでなく,モデルの堅牢性も向上する。
論文 参考訳(メタデータ) (2023-10-24T01:36:20Z) - Reusing Pretrained Models by Multi-linear Operators for Efficient
Training [65.64075958382034]
大規模なモデルをスクラッチからトレーニングすることは、通常、かなりの量のリソースを必要とする。
bert2BERT や LiGO といった最近の研究は、大規模なモデルを初期化するために、小さな事前訓練されたモデルを再利用している。
本稿では,対象モデルの各重みを事前学習モデルの全重みに線形に相関させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-16T06:16:47Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - Jigsaw Clustering for Unsupervised Visual Representation Learning [68.09280490213399]
本稿では,新しいjigsawクラスタリング・プレテキストタスクを提案する。
本手法は画像内情報と画像間情報の両方を利用する。
トレーニングバッチの半分しか使用されていない場合、コントラスト学習方法にも匹敵します。
論文 参考訳(メタデータ) (2021-04-01T08:09:26Z) - CoRe: An Efficient Coarse-refined Training Framework for BERT [17.977099111813644]
本稿では,BERT のトレーニングを高速化するために,CoRe という新たな粗調整トレーニングフレームワークを提案する。
第1フェーズでは、元のBERTよりもはるかに少ないパラメータとモデル複雑さを持つ緩和されたBERTモデルを構築した。
第2段階では、訓練された緩和されたBERTモデルを元のBERTに変換し、さらにモデルを再訓練する。
論文 参考訳(メタデータ) (2020-11-27T09:49:37Z) - Deep Ensembles for Low-Data Transfer Learning [21.578470914935938]
我々は、事前訓練されたモデルからアンサンブルを作成する様々な方法を研究する。
プレトレーニング自体が多様性の優れた源であることが示される。
本稿では,任意の下流データセットに対して,事前学習したモデルのサブセットを効率的に同定する実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-14T07:59:00Z) - A Practical Incremental Method to Train Deep CTR Models [37.54660958085938]
本稿では,3つの分離モジュールからなる深部CTRモデルを訓練するための実用的なインクリメンタル手法を提案する。
提案手法は従来のバッチモード学習と同等の性能を達成でき,訓練効率も向上する。
論文 参考訳(メタデータ) (2020-09-04T12:35:42Z) - Efficient Learning of Model Weights via Changing Features During
Training [0.0]
学習中の特徴を動的に変化させる機械学習モデルを提案する。
私たちの主な動機は、トレーニングプロセス中に小さなコンテンツでモデルを更新し、より説明力の少ない機能を大きなプールから新しいものに置き換えることです。
論文 参考訳(メタデータ) (2020-02-21T12:38:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。