論文の概要: Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability
- arxiv url: http://arxiv.org/abs/2203.05180v1
- Date: Thu, 10 Mar 2022 06:23:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-11 14:33:14.567272
- Title: Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability
- Title(参考訳): 効果的な事前学習としての知識蒸留:より高速な収束、データ効率の向上、伝達性の向上
- Authors: Ruifei He, Shuyang Sun, Jihan Yang, Song Bai and Xiaojuan Qi
- Abstract要約: 効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
- 参考スコア(独自算出の注目度): 53.27240222619834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale pre-training has been proven to be crucial for various computer
vision tasks. However, with the increase of pre-training data amount, model
architecture amount, and the private/inaccessible data, it is not very
efficient or possible to pre-train all the model architectures on large-scale
datasets. In this work, we investigate an alternative strategy for
pre-training, namely Knowledge Distillation as Efficient Pre-training (KDEP),
aiming to efficiently transfer the learned feature representation from existing
pre-trained models to new student models for future downstream tasks. We
observe that existing Knowledge Distillation (KD) methods are unsuitable
towards pre-training since they normally distill the logits that are going to
be discarded when transferred to downstream tasks. To resolve this problem, we
propose a feature-based KD method with non-parametric feature dimension
aligning. Notably, our method performs comparably with supervised pre-training
counterparts in 3 downstream tasks and 9 downstream datasets requiring 10x less
data and 5x less pre-training time. Code is available at
https://github.com/CVMI-Lab/KDEP.
- Abstract(参考訳): 大規模事前学習は様々なコンピュータビジョンタスクに不可欠であることが証明されている。
しかし、事前学習データ量、モデルアーキテクチャ量、プライベート/アクセス不能データの増加により、大規模データセット上ですべてのモデルアーキテクチャを事前トレーニングすることは、あまり効率的・不可能である。
本研究では,学習した特徴表現を既存の事前学習モデルから,将来的な下流タスクのための新しい学生モデルへ効率的に伝達することを目的とした,事前学習のための代替戦略である知識蒸留(KDEP)について検討する。
既存の知識蒸留(KD)法は,下流のタスクに移行した場合に廃棄されるロジットを通常蒸留するため,事前学習には適さない。
この問題を解決するために,非パラメトリックな特徴次元アライメントを有する特徴量に基づくKD法を提案する。
特に,3つのダウンストリームタスクと9つのダウンストリームデータセットで教師付き事前トレーニングを行う場合,10倍のデータと5倍の事前トレーニング時間が必要となる。
コードはhttps://github.com/CVMI-Lab/KDEPで入手できる。
関連論文リスト
- Dataset Distillation via Knowledge Distillation: Towards Efficient Self-Supervised Pre-Training of Deep Networks [10.932880269282014]
SSL事前トレーニングのための最初の有効なDD法を提案する。
具体的には、SSLでトレーニングされたより大きな教師モデルの表現に合わせるために、小さな学生モデルを訓練する。
KDの目的はSSLよりもかなり分散度が低いため、我々の手法は、高品質エンコーダの事前訓練に成功できる合成データセットを生成することができる。
論文 参考訳(メタデータ) (2024-10-03T00:39:25Z) - Task-Oriented Pre-Training for Drivable Area Detection [5.57325257338134]
本稿では,冗長なセグメンテーションの提案から始まるタスク指向の事前学習手法を提案する。
次に、コントラスト言語画像事前学習(CLIP)モデルを微調整するための特定カテゴリー強化微調整(SCEF)戦略を導入する。
このアプローチは、手動のアノテートデータを使用してさらに微調整された事前学習モデルの粗いトレーニングデータを生成することができる。
論文 参考訳(メタデータ) (2024-09-30T10:25:47Z) - Delayed Bottlenecking: Alleviating Forgetting in Pre-trained Graph Neural Networks [19.941727879841142]
本稿では,新しいアンダーラインDelayed UnderlineBottlenecking UnderlinePre-trainingフレームワークを提案する。
トレーニング前の段階では、潜在表現とトレーニングデータの間の可能な限りの相互情報を保持する。
論文 参考訳(メタデータ) (2024-04-23T11:35:35Z) - Better with Less: A Data-Active Perspective on Pre-Training Graph Neural
Networks [39.71761440499148]
グラフニューラルネットワーク(GNN)の事前トレーニングは、ラベルのないデータで下流タスクの転送可能な知識を学ぶことを目的としている。
より少ないが慎重に選択されたデータはGNNモデルに入力される。
実験の結果,提案手法により,より少ないトレーニングデータとより優れたダウンストリーム性能を有する効率的な事前学習モデルが得られることがわかった。
論文 参考訳(メタデータ) (2023-11-02T07:09:59Z) - Fast Machine Unlearning Without Retraining Through Selective Synaptic
Dampening [51.34904967046097]
Selective Synaptic Dampening (SSD)は高速で、訓練データの長期保存を必要としない。
高速で性能が高く,トレーニングデータの長期保存を必要としない,新しい2段階のポストホック,リトレーニングフリーなマシンアンラーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T11:30:45Z) - Optimal transfer protocol by incremental layer defrosting [66.76153955485584]
トランスファーラーニングは、限られた量のデータでモデルトレーニングを可能にする強力なツールである。
最も単純な転送学習プロトコルは、データリッチなソースタスクで事前訓練されたネットワークの機能抽出層を凍結する。
このプロトコルは、しばしば準最適であり、事前学習されたネットワークの小さな部分を凍結したままにしておくと、最大の性能向上が達成される可能性がある。
論文 参考訳(メタデータ) (2023-03-02T17:32:11Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Self-Supervised Pretraining Improves Self-Supervised Pretraining [83.1423204498361]
自己教師付き事前トレーニングには、高価で長い計算と大量のデータが必要で、データ拡張に敏感である。
本稿では,既存の事前学習モデルを用いて事前学習プロセスを初期化することにより,収束時間を短縮し,精度を向上させる階層的事前学習(HPT)について検討する。
HPTが最大80倍速く収束し、タスク全体の精度が向上し、自己監視された事前トレーニングプロセスの堅牢性が、画像増強ポリシーまたは事前トレーニングデータの量の変化に改善されることを示します。
論文 参考訳(メタデータ) (2021-03-23T17:37:51Z) - Efficient Conditional Pre-training for Transfer Learning [71.01129334495553]
本稿では,事前学習データセットから関連するサブセットを選択するための効率的なフィルタリング手法を提案する。
我々は、教師なし設定と教師なし設定の両方において、ImageNetで事前トレーニングを行うことで、我々の技術を検証する。
我々は、サブセットで利用可能なモデルをチューニングし、大規模なデータセットからフィルタリングされたデータセットで事前トレーニングすることで、標準のImageNet事前トレーニングを1~3%改善する。
論文 参考訳(メタデータ) (2020-11-20T06:16:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。