論文の概要: Initializing Models with Larger Ones
- arxiv url: http://arxiv.org/abs/2311.18823v1
- Date: Thu, 30 Nov 2023 18:58:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 15:13:29.562290
- Title: Initializing Models with Larger Ones
- Title(参考訳): 大きなモデルでモデルの初期化
- Authors: Zhiqiu Xu, Yanjie Chen, Kirill Vishniakov, Yida Yin, Zhiqiang Shen,
Trevor Darrell, Lingjie Liu, Zhuang Liu
- Abstract要約: 事前訓練された大モデルから重みのサブセットを選択することにより、より小さなモデルを初期化する手法である重み選択を導入する。
実験により, 重量選択は小型モデルの性能を著しく向上し, トレーニング時間を短縮できることが示された。
- 参考スコア(独自算出の注目度): 76.41561758293055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weight initialization plays an important role in neural network training.
Widely used initialization methods are proposed and evaluated for networks that
are trained from scratch. However, the growing number of pretrained models now
offers new opportunities for tackling this classical problem of weight
initialization. In this work, we introduce weight selection, a method for
initializing smaller models by selecting a subset of weights from a pretrained
larger model. This enables the transfer of knowledge from pretrained weights to
smaller models. Our experiments demonstrate that weight selection can
significantly enhance the performance of small models and reduce their training
time. Notably, it can also be used together with knowledge distillation. Weight
selection offers a new approach to leverage the power of pretrained models in
resource-constrained settings, and we hope it can be a useful tool for training
small models in the large-model era. Code is available at
https://github.com/OscarXZQ/weight-selection.
- Abstract(参考訳): 重み初期化はニューラルネットワークトレーニングにおいて重要な役割を果たす。
スクラッチからトレーニングしたネットワークに対して,広く利用されている初期化手法を提案し,評価した。
しかし、トレーニング済みモデルの増加は、この古典的な重量初期化問題に取り組む新しい機会を与えている。
本研究では,事前訓練された大モデルから重みのサブセットを選択することで,より小さなモデルの初期化を行う手法である重み選択を導入する。
これにより、事前訓練された重量からより小さなモデルへの知識の伝達が可能になる。
実験により,小型モデルの性能を著しく向上し,トレーニング時間を短縮できることが示された。
特に、知識蒸留と併用することもできる。
重みの選択は、リソース制約のある設定で事前訓練されたモデルのパワーを活用するための新しいアプローチを提供する。
コードはhttps://github.com/OscarXZQ/weight-selectionで入手できる。
関連論文リスト
- Scaling Smart: Accelerating Large Language Model Pre-training with Small Model Initialization [22.90653167145603]
本稿では,事前学習した言語モデルのパラメータを,隠れ次元が増大する大規模モデルのパラメータに拡張する手法であるHyperCloningを紹介する。
結果として、より大きなモデルは、トレーニングを開始する前に、より小さなモデルの予測能力と精度をすでに継承している。
論文 参考訳(メタデータ) (2024-09-19T16:50:26Z) - Efficient Training with Denoised Neural Weights [65.14892033932895]
この研究は、初期化のために神経重みを合成するウェイトジェネレータを構築するための新しい一歩を踏み出した。
本稿では,モデル重みの収集を容易にするために,GANを用いた画像間翻訳タスクを例に挙げる。
拡散モデルによって予測される重み付き画像翻訳モデルを初期化することにより、トレーニングは43.3秒しか必要としない。
論文 参考訳(メタデータ) (2024-07-16T17:59:42Z) - Weight subcloning: direct initialization of transformers using larger
pretrained ones [42.056148990349094]
本稿では,事前学習されたモデルの知識をより小さな変種に伝達する手法を提案する。
ウェイト・サブクロニングは、より大きな事前訓練モデルからウェイトを初期化することにより、スケールダウン・トランスフォーマーのトレーニングを高速化する。
我々は、次のトークン予測のために設計された画像分類と言語モデルにおいて、視覚変換器の4倍高速なトレーニングを実現する。
論文 参考訳(メタデータ) (2023-12-14T19:08:56Z) - Reusing Pretrained Models by Multi-linear Operators for Efficient
Training [65.64075958382034]
大規模なモデルをスクラッチからトレーニングすることは、通常、かなりの量のリソースを必要とする。
bert2BERT や LiGO といった最近の研究は、大規模なモデルを初期化するために、小さな事前訓練されたモデルを再利用している。
本稿では,対象モデルの各重みを事前学習モデルの全重みに線形に相関させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-16T06:16:47Z) - Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints [59.39280540478479]
密なチェックポイントから疎活性化されたMixture-of-Expertsモデルを初期化することにより、サンクトレーニングコストを再利用する簡単な方法であるスパースアップサイクリングを提案する。
我々は, 比較的高サイクルなT5 Base, Large, XL言語モデル, Vision Transformer Base と Large モデルが, SuperGLUE と ImageNet の高密度モデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-12-09T18:57:37Z) - Revealing Secrets From Pre-trained Models [2.0249686991196123]
トランスファーラーニングは多くの新しいディープラーニングアルゴリズムで広く採用されている。
本研究では,事前学習モデルと微調整モデルが重み値に非常によく似ていることを示す。
ブラックボックスの被害者モデルで使用されるモデルアーキテクチャと事前訓練モデルを明らかにするモデル抽出攻撃を提案する。
論文 参考訳(メタデータ) (2022-07-19T20:19:03Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - Transfer training from smaller language model [6.982133308738434]
小型の訓練済みモデルを大規模モデルに変更することで、トレーニング時間とリソースコストを節約する方法を見つけます。
ターゲットモデルを複数のデータセットでテストし、ソースモデルといまだに同等であることを示す。
論文 参考訳(メタデータ) (2021-04-23T02:56:02Z) - Learning to Reweight with Deep Interactions [104.68509759134878]
本稿では,教師モデルに内部状態を提供する改良型データ再重み付けアルゴリズムを提案する。
クリーン/ノイズラベルとニューラルマシン翻訳を用いた画像分類実験は、我々のアルゴリズムが従来の手法よりも大幅に改善されていることを実証的に実証した。
論文 参考訳(メタデータ) (2020-07-09T09:06:31Z) - Efficient Learning of Model Weights via Changing Features During
Training [0.0]
学習中の特徴を動的に変化させる機械学習モデルを提案する。
私たちの主な動機は、トレーニングプロセス中に小さなコンテンツでモデルを更新し、より説明力の少ない機能を大きなプールから新しいものに置き換えることです。
論文 参考訳(メタデータ) (2020-02-21T12:38:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。