論文の概要: Transferring Knowledge from Large Foundation Models to Small Downstream Models
- arxiv url: http://arxiv.org/abs/2406.07337v1
- Date: Tue, 11 Jun 2024 15:06:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 15:24:54.398935
- Title: Transferring Knowledge from Large Foundation Models to Small Downstream Models
- Title(参考訳): 大規模基礎モデルから小規模下流モデルへの知識移転
- Authors: Shikai Qiu, Boran Han, Danielle C. Maddix, Shuai Zhang, Yuyang Wang, Andrew Gordon Wilson,
- Abstract要約: 事前訓練されたモデル間で知識を伝達するための適応的特徴伝達(AFT)を導入する。
AFTは純粋に機能で動作し、より小さな下流モデルから事前訓練されたモデルの選択を分離する。
AFTは、同様の計算コストの代替よりも、ダウンストリーム性能が大幅に向上する。
- 参考スコア(独自算出の注目度): 40.38657103236168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How do we transfer the relevant knowledge from ever larger foundation models into small, task-specific downstream models that can run at much lower costs? Standard transfer learning using pre-trained weights as the initialization transfers limited information and commits us to often massive pre-trained architectures. This procedure also precludes combining multiple pre-trained models that learn complementary information. To address these shortcomings, we introduce Adaptive Feature Transfer (AFT). Instead of transferring weights, AFT operates purely on features, thereby decoupling the choice of the pre-trained model from the smaller downstream model. Rather than indiscriminately compressing all pre-trained features, AFT adaptively transfers pre-trained features that are most useful for performing the downstream task, using a simple regularization that adds minimal overhead. Across multiple vision, language, and multi-modal datasets, AFT achieves significantly better downstream performance compared to alternatives with a similar computational cost. Furthermore, AFT reliably translates improvement in pre-trained models into improvement in downstream performance, even if the downstream model is over $50\times$ smaller, and can effectively transfer complementary information learned by multiple pre-trained models.
- Abstract(参考訳): より大規模なファンデーションモデルから、より低コストで実行できる小さなタスク固有のダウンストリームモデルに、関連する知識を移行するにはどうすればよいのか?
初期化時に事前学習した重みを用いた標準伝達学習は、限られた情報を伝達し、しばしば大規模な事前学習アーキテクチャにコミットする。
この手順はまた、相補的な情報を学ぶ複数の事前訓練されたモデルを組み合わせることを妨げている。
これらの欠点に対処するため、適応的特徴伝達(AFT)を導入する。
ウェイトを転送する代わりに、AFTは純粋に機能で動作し、より小さな下流モデルから事前訓練されたモデルの選択を分離する。
AFTは、訓練済みのすべての機能を無差別に圧縮するのではなく、ダウンストリームタスクの実行に最も有用な事前訓練済みの機能を、最小限のオーバーヘッドを追加する単純な正規化を使って適応的に転送する。
複数のビジョン、言語、マルチモーダルデータセットにわたって、AFTは、同様の計算コストの代替よりも、ダウンストリームのパフォーマンスが大幅に向上する。
さらに、AFTは、下流モデルが50\times$より小さい場合でも、事前学習モデルの改善をダウンストリーム性能の改善に確実に変換し、複数の事前学習モデルで学習した補完情報を効果的に転送することができる。
関連論文リスト
- FINE: Factorizing Knowledge for Initialization of Variable-sized Diffusion Models [35.40065954148091]
FINEはLearngeneフレームワークに基づく、事前訓練されたモデルを利用した下流ネットワークの初期化手法である。
事前学習された知識を行列の積(例えば$U$, $Sigma$, $V$)に分解する。
これは、特により小さなモデルにおいて、直接事前訓練よりも一貫して優れており、可変モデルのサイズで最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-09-28T08:57:17Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - FTFT: Efficient and Robust Fine-Tuning by Transferring Training Dynamics [7.58472343957521]
トレーニングダイナミクスは,モデルサイズや事前学習手法間で非常に伝達可能であることを示す。
本稿では,TransFerring Training dynamics (FTFT)によるファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-10T12:53:48Z) - Fast and Accurate Transferability Measurement by Evaluating Intra-class
Feature Variance [20.732095457775138]
転送可能性の測定は、ソースタスクからターゲットタスクに学習したトレーニング済みモデルがどのように転送可能かを定量化する。
本稿では,トランスファビリティを計測する高速かつ正確なアルゴリズムであるTMI(TRANSFERABILITY Measurement with Intra-CLASS FEATURE VARIANCE)を提案する。
論文 参考訳(メタデータ) (2023-08-11T07:50:40Z) - SPDF: Sparse Pre-training and Dense Fine-tuning for Large Language
Models [4.114555639014612]
本研究は,非構造的重み空間を用いて,事前訓練中にのみ重みのサブセットを訓練する利点を示す。
我々は1.3Bパラメータ GPT-3 XL モデルに最大75%の間隔を誘導できることを示す。
論文 参考訳(メタデータ) (2023-03-18T17:56:01Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - How Well Do Sparse Imagenet Models Transfer? [75.98123173154605]
転送学習は、大規模な"上流"データセットで事前訓練されたモデルが、"下流"データセットで良い結果を得るために適応される古典的なパラダイムである。
本研究では、ImageNetデータセットでトレーニングされた畳み込みニューラルネットワーク(CNN)のコンテキストにおいて、この現象を詳細に調査する。
スパースモデルでは, 高空間であっても, 高密度モデルの転送性能にマッチしたり, 性能に優れることを示す。
論文 参考訳(メタデータ) (2021-11-26T11:58:51Z) - TransTailor: Pruning the Pre-trained Model for Improved Transfer
Learning [5.9292619981667976]
そこで本研究では,事前学習モデルの構築を目標としたtranstailorを提案する。
目標と認識する重みの重要度に応じて、事前訓練されたモデルのプーンと微調整を行う。
ファイナルパフォーマンスのために微調整時に適用可能な,より適切なサブ構造を転送する。
論文 参考訳(メタデータ) (2021-03-02T07:58:35Z) - Do Adversarially Robust ImageNet Models Transfer Better? [102.09335596483695]
逆向きに堅牢なモデルは、トランスファーラーニングに使用する場合、標準訓練されたモデルよりもよく機能する。
私たちの結果は、ロバストさが機能表現の改善につながるという最近の仮説と一致しています。
論文 参考訳(メタデータ) (2020-07-16T17:42:40Z) - Train Large, Then Compress: Rethinking Model Size for Efficient Training
and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。
まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。
これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文 参考訳(メタデータ) (2020-02-26T21:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。