論文の概要: Fusing finetuned models for better pretraining
- arxiv url: http://arxiv.org/abs/2204.03044v1
- Date: Wed, 6 Apr 2022 18:54:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 13:04:40.420427
- Title: Fusing finetuned models for better pretraining
- Title(参考訳): 微調整モデルの融合による事前学習の改善
- Authors: Leshem Choshen, Elad Venezian, Noam Slonim, Yoav Katz
- Abstract要約: 複数の既存の微調整されたモデルを1つに融合することで、より優れたベースモデルをほとんどコストがかからないで作成します。
また、融合はインタートレーニングよりも良いこともしばしば示しています。
- 参考スコア(独自算出の注目度): 17.839155335463495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained models are the standard starting point for training. This approach
consistently outperforms the use of a random initialization. However,
pretraining is a costly endeavour that few can undertake.
In this paper, we create better base models at hardly any cost, by fusing
multiple existing fine tuned models into one. Specifically, we fuse by
averaging the weights of these models. We show that the fused model results
surpass the pretrained model ones. We also show that fusing is often better
than intertraining.
We find that fusing is less dependent on the target task. Furthermore, weight
decay nullifies intertraining effects but not those of fusing.
- Abstract(参考訳): 事前訓練されたモデルはトレーニングの標準的な出発点です。
このアプローチは、ランダム初期化の使用を一貫して上回る。
しかし、事前トレーニングは、ほとんどできないほどコストのかかる努力である。
本稿では,既存の複数の微調整モデルから1つのモデルに融合することで,より優れたベースモデルを作成する。
具体的には、これらのモデルの重みを平均することでヒューズします。
融合モデルの結果が事前学習モデルを上回ることを示す。
また、融合はインタートレーニングよりも良いこともしばしば示しています。
fusingはターゲットタスクに依存しないことが分かりました。
さらに、重み劣化は干渉効果を無効にするが、融合効果は無効である。
関連論文リスト
- Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - Scaling Smart: Accelerating Large Language Model Pre-training with Small Model Initialization [22.90653167145603]
本稿では,事前学習した言語モデルのパラメータを,隠れ次元が増大する大規模モデルのパラメータに拡張する手法であるHyperCloningを紹介する。
結果として、より大きなモデルは、トレーニングを開始する前に、より小さなモデルの予測能力と精度をすでに継承している。
論文 参考訳(メタデータ) (2024-09-19T16:50:26Z) - Reuse, Don't Retrain: A Recipe for Continued Pretraining of Language Models [29.367678364485794]
本稿では,言語モデルの事前学習を継続する上で,効率的なデータ分布と学習率スケジュールを設計する方法を示す。
プレトレーニングセットにおける継続トレーニングのベースラインと比較すると,平均モデル精度は9%向上した。
論文 参考訳(メタデータ) (2024-07-09T22:37:59Z) - Ask Your Distribution Shift if Pre-Training is Right for You [74.18516460467019]
実際に、事前訓練されたモデルの微調整は、いくつかのケースではロバスト性を大幅に改善するが、他のケースではまったく改善しない。
分散シフト中のモデルの2つの障害モード – トレーニングデータの補間不足とバイアス – に注目する。
我々の研究は、親指の規則として、事前学習は、粗悪な外挿を緩和するがデータセットのバイアスを緩和する助けとなることを示唆している。
論文 参考訳(メタデータ) (2024-02-29T23:46:28Z) - Pre-trained Model Guided Fine-Tuning for Zero-Shot Adversarial Robustness [52.9493817508055]
我々は,モデルがゼロショットの逆方向のロバスト性を高めるために,事前訓練されたモデル誘導逆方向の微調整(PMG-AFT)を提案する。
私たちのアプローチは、平均8.72%のクリーンな精度を継続的に改善します。
論文 参考訳(メタデータ) (2024-01-09T04:33:03Z) - Membership Inference Attacks on Diffusion Models via Quantile Regression [30.30033625685376]
我々は,家族関係推論(MI)攻撃による拡散モデルのプライバシー上の脆弱性を実証する。
提案したMI攻撃は、トレーニングに使用されていない例における再構成損失の分布を予測(定量化)する量子レグレッションモデルを学習する。
我々の攻撃は従来の最先端攻撃よりも優れており、計算コストは著しく低い。
論文 参考訳(メタデータ) (2023-12-08T16:21:24Z) - Fast-ELECTRA for Efficient Pre-training [83.29484808667532]
ELECTRAは補助モデルに置き換えられたシーケンス内のトークンを検出して、言語モデルを事前訓練する。
本稿では,既存の言語モデルを補助モデルとして活用したFast-ELECTRAを提案する。
提案手法は,最先端のELECTRA型事前学習手法の性能に匹敵するが,補助モデルの連成学習による計算とメモリコストは著しく削減される。
論文 参考訳(メタデータ) (2023-10-11T09:55:46Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Effective training-time stacking for ensembling of deep neural networks [1.2667973028134798]
スナップショットアンサンブルは、単一のトレーニングパスに沿ってアンサンブル内のモデルを収集する。
トレーニングパスに沿ってアンサンブルメンバーを選択して重み付けすることでスナップショットアンサンブルを改善する。
標準の積み重ねメソッドが行う検証サンプルエラーを考慮せずに、トレーニング時間の確率に依存する。
論文 参考訳(メタデータ) (2022-06-27T17:52:53Z) - LogME: Practical Assessment of Pre-trained Models for Transfer Learning [80.24059713295165]
最大エビデンス対数(logme)は、転送学習のための事前学習されたモデルを評価するために用いられる。
ブルートフォースの微調整と比較して、LogMEはウォールクロックタイムで3000times$のスピードアップをもたらします。
論文 参考訳(メタデータ) (2021-02-22T13:58:11Z) - Deep Ensembles for Low-Data Transfer Learning [21.578470914935938]
我々は、事前訓練されたモデルからアンサンブルを作成する様々な方法を研究する。
プレトレーニング自体が多様性の優れた源であることが示される。
本稿では,任意の下流データセットに対して,事前学習したモデルのサブセットを効率的に同定する実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-14T07:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。