論文の概要: Fusing finetuned models for better pretraining
- arxiv url: http://arxiv.org/abs/2204.03044v1
- Date: Wed, 6 Apr 2022 18:54:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 13:04:40.420427
- Title: Fusing finetuned models for better pretraining
- Title(参考訳): 微調整モデルの融合による事前学習の改善
- Authors: Leshem Choshen, Elad Venezian, Noam Slonim, Yoav Katz
- Abstract要約: 複数の既存の微調整されたモデルを1つに融合することで、より優れたベースモデルをほとんどコストがかからないで作成します。
また、融合はインタートレーニングよりも良いこともしばしば示しています。
- 参考スコア(独自算出の注目度): 17.839155335463495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained models are the standard starting point for training. This approach
consistently outperforms the use of a random initialization. However,
pretraining is a costly endeavour that few can undertake.
In this paper, we create better base models at hardly any cost, by fusing
multiple existing fine tuned models into one. Specifically, we fuse by
averaging the weights of these models. We show that the fused model results
surpass the pretrained model ones. We also show that fusing is often better
than intertraining.
We find that fusing is less dependent on the target task. Furthermore, weight
decay nullifies intertraining effects but not those of fusing.
- Abstract(参考訳): 事前訓練されたモデルはトレーニングの標準的な出発点です。
このアプローチは、ランダム初期化の使用を一貫して上回る。
しかし、事前トレーニングは、ほとんどできないほどコストのかかる努力である。
本稿では,既存の複数の微調整モデルから1つのモデルに融合することで,より優れたベースモデルを作成する。
具体的には、これらのモデルの重みを平均することでヒューズします。
融合モデルの結果が事前学習モデルを上回ることを示す。
また、融合はインタートレーニングよりも良いこともしばしば示しています。
fusingはターゲットタスクに依存しないことが分かりました。
さらに、重み劣化は干渉効果を無効にするが、融合効果は無効である。
関連論文リスト
- Ask Your Distribution Shift if Pre-Training is Right for You [74.18516460467019]
実際に、事前訓練されたモデルの微調整は、いくつかのケースではロバスト性を大幅に改善するが、他のケースではまったく改善しない。
分散シフト中のモデルの2つの障害モード – トレーニングデータの補間不足とバイアス – に注目する。
我々の研究は、親指の規則として、事前学習は、粗悪な外挿を緩和するがデータセットのバイアスを緩和する助けとなることを示唆している。
論文 参考訳(メタデータ) (2024-02-29T23:46:28Z) - Recovering the Pre-Fine-Tuning Weights of Generative Models [48.996830072800336]
そこで本研究では,いくつかの低ランク(LoRA)微調整モデルを用いて,プレファインチューニングモデルの重みを復元する手法を提案する。
このアプローチでは、パーソナライズされたStable DiffusionやアライメントされたMistralといった大規模モデルに対して、この新しい脆弱性を活用しています。
論文 参考訳(メタデータ) (2024-02-15T18:59:02Z) - Membership Inference Attacks on Diffusion Models via Quantile Regression [30.30033625685376]
我々は,家族関係推論(MI)攻撃による拡散モデルのプライバシー上の脆弱性を実証する。
提案したMI攻撃は、トレーニングに使用されていない例における再構成損失の分布を予測(定量化)する量子レグレッションモデルを学習する。
我々の攻撃は従来の最先端攻撃よりも優れており、計算コストは著しく低い。
論文 参考訳(メタデータ) (2023-12-08T16:21:24Z) - Fast-ELECTRA for Efficient Pre-training [83.29484808667532]
ELECTRAは補助モデルに置き換えられたシーケンス内のトークンを検出して、言語モデルを事前訓練する。
本稿では,既存の言語モデルを補助モデルとして活用したFast-ELECTRAを提案する。
提案手法は,最先端のELECTRA型事前学習手法の性能に匹敵するが,補助モデルの連成学習による計算とメモリコストは著しく削減される。
論文 参考訳(メタデータ) (2023-10-11T09:55:46Z) - Continual Pre-Training of Large Language Models: How to (re)warm your
model? [21.8468835868142]
大規模言語モデル(LLM)はトークン上で定期的に事前訓練されるが、新しいデータが利用可能になると再起動する。
我々は,SlimPajama(下流データ,297Bトークン)の事前トレーニングを続けながら,パイル(上流データ,300Bトークン)で事前訓練されたモデルのウォームアップフェーズについて検討した。
以上の結果から,上流データと下流データの損失は再温暖化によって増大するが,より長い実行でダウンストリームのパフォーマンスが向上し,大規模なダウンストリームデータセットに対して10億ドルからトレーニングしたモデルよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2023-08-08T03:18:18Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Effective training-time stacking for ensembling of deep neural networks [1.2667973028134798]
スナップショットアンサンブルは、単一のトレーニングパスに沿ってアンサンブル内のモデルを収集する。
トレーニングパスに沿ってアンサンブルメンバーを選択して重み付けすることでスナップショットアンサンブルを改善する。
標準の積み重ねメソッドが行う検証サンプルエラーを考慮せずに、トレーニング時間の確率に依存する。
論文 参考訳(メタデータ) (2022-06-27T17:52:53Z) - LogME: Practical Assessment of Pre-trained Models for Transfer Learning [80.24059713295165]
最大エビデンス対数(logme)は、転送学習のための事前学習されたモデルを評価するために用いられる。
ブルートフォースの微調整と比較して、LogMEはウォールクロックタイムで3000times$のスピードアップをもたらします。
論文 参考訳(メタデータ) (2021-02-22T13:58:11Z) - Deep Ensembles for Low-Data Transfer Learning [21.578470914935938]
我々は、事前訓練されたモデルからアンサンブルを作成する様々な方法を研究する。
プレトレーニング自体が多様性の優れた源であることが示される。
本稿では,任意の下流データセットに対して,事前学習したモデルのサブセットを効率的に同定する実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-14T07:59:00Z) - Train Large, Then Compress: Rethinking Model Size for Efficient Training
and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。
まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。
これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文 参考訳(メタデータ) (2020-02-26T21:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。