論文の概要: Principled and Efficient Transfer Learning of Deep Models via Neural
Collapse
- arxiv url: http://arxiv.org/abs/2212.12206v1
- Date: Fri, 23 Dec 2022 08:48:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 16:08:23.106046
- Title: Principled and Efficient Transfer Learning of Deep Models via Neural
Collapse
- Title(参考訳): 神経崩壊による深部モデルの原理的かつ効率的な伝達学習
- Authors: Xiao Li, Sheng Liu, Jinxin Zhou, Xinyu Lu, Carlos Fernandez-Granda,
Zhihui Zhu, Qing Qu
- Abstract要約: この研究は、神経崩壊(NC)と呼ばれる興味深い現象を通して、伝達学習の謎を掘り下げる
i) 事前学習時のモデル, クラス内変動の崩壊防止(ある程度)は, 入力データの内在的構造をよりよく保存し, モデル伝達性の向上につながること, (ii) 下流タスクの微調整モデルでは, 下流データ上でよりNCの高い特徴を得ることにより, 与えられたタスクの精度が向上すること, などである。
- 参考スコア(独自算出の注目度): 35.365366092030904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the ever-growing model size and the limited availability of labeled
training data, transfer learning has become an increasingly popular approach in
many science and engineering domains. For classification problems, this work
delves into the mystery of transfer learning through an intriguing phenomenon
termed neural collapse (NC), where the last-layer features and classifiers of
learned deep networks satisfy: (i) the within-class variability of the features
collapses to zero, and (ii) the between-class feature means are maximally and
equally separated. Through the lens of NC, our findings for transfer learning
are the following: (i) when pre-training models, preventing intra-class
variability collapse (to a certain extent) better preserves the intrinsic
structures of the input data, so that it leads to better model transferability;
(ii) when fine-tuning models on downstream tasks, obtaining features with more
NC on downstream data results in better test accuracy on the given task. The
above results not only demystify many widely used heuristics in model
pre-training (e.g., data augmentation, projection head, self-supervised
learning), but also leads to more efficient and principled fine-tuning method
on downstream tasks that we demonstrate through extensive experimental results.
- Abstract(参考訳): モデルのサイズが拡大し、ラベル付きトレーニングデータの可用性が限られているため、転校学習は多くの科学や工学領域で人気が高まっている。
分類問題では、この研究は、ニューラルネットワークの最後の層の特徴と分類器が満たされる、神経崩壊(NC)と呼ばれる興味深い現象を通じて、伝達学習の謎を掘り下げる。
(i)特徴のクラス内変動はゼロに崩壊し、
(ii)クラス間特徴手段は最大かつ等分される。
NCのレンズを通して、転写学習の知見は以下の通りである。
(i)事前訓練の際には、クラス内変動性の崩壊(ある程度)を防止し、入力データの本質的構造を良好に保ち、モデル転送性を向上させること。
(2) 下流タスクの微調整モデルにおいて、下流データでよりNCの高い機能を得ると、与えられたタスクに対するテスト精度が向上する。
以上の結果は,モデルの事前学習において広く用いられているヒューリスティック(データ拡張,投影ヘッド,自己教師付き学習など)の多くを損なうだけでなく,より効率的かつ原理的な下流タスクの微調整手法にもつながる。
関連論文リスト
- DeepONet as a Multi-Operator Extrapolation Model: Distributed Pretraining with Physics-Informed Fine-Tuning [6.635683993472882]
マルチオペレータ学習を実現するためのファインチューニング手法を提案する。
本手法は,事前学習における各種演算子からのデータを分散学習と組み合わせ,物理インフォームド手法によりゼロショット微調整が可能となる。
論文 参考訳(メタデータ) (2024-11-11T18:58:46Z) - Neural Collapse Meets Differential Privacy: Curious Behaviors of NoisyGD with Near-perfect Representation Learning [36.954726737451224]
本稿では,表現学習における階層型モデルの設定について考察し,深層学習と伝達学習における学習特徴に関連する興味深い現象について考察する。
DPの微調整はDPのない微調整に比べ、特に摂動の存在下では堅牢性が低いことを示す。
論文 参考訳(メタデータ) (2024-05-14T19:18:19Z) - Convolutional Neural Networks for the classification of glitches in
gravitational-wave data streams [52.77024349608834]
我々は、高度LIGO検出器のデータから過渡ノイズ信号(グリッチ)と重力波を分類する。
どちらも、Gravity Spyデータセットを使用して、スクラッチからトレーニングされた、教師付き学習アプローチのモデルを使用します。
また、擬似ラベルの自動生成による事前学習モデルの自己教師型アプローチについても検討する。
論文 参考訳(メタデータ) (2023-03-24T11:12:37Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Learn, Unlearn and Relearn: An Online Learning Paradigm for Deep Neural
Networks [12.525959293825318]
我々は、ディープニューラルネットワーク(DNN)のためのオンライン学習パラダイムであるLearning, Unlearn, and Relearn(LURE)を紹介する。
LUREは、モデルの望ましくない情報を選択的に忘れる未学習フェーズと、一般化可能な特徴の学習を強調する再学習フェーズとを交換する。
トレーニングパラダイムは、分類と少数ショット設定の両方において、データセット間で一貫したパフォーマンス向上を提供します。
論文 参考訳(メタデータ) (2023-03-18T16:45:54Z) - DCLP: Neural Architecture Predictor with Curriculum Contrastive Learning [5.2319020651074215]
ニューラル予測器(DCLP)のためのカリキュラム誘導型コントラスト学習フレームワークを提案する。
本手法は,新たなカリキュラムを設計し,ラベルのないトレーニングデータ分布の安定性を高めることで,対照的なタスクを単純化する。
我々は既存の予測器と比較してDCLPの精度と効率が優れていることを実験的に実証した。
論文 参考訳(メタデータ) (2023-02-25T08:16:21Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - How Well Do Sparse Imagenet Models Transfer? [75.98123173154605]
転送学習は、大規模な"上流"データセットで事前訓練されたモデルが、"下流"データセットで良い結果を得るために適応される古典的なパラダイムである。
本研究では、ImageNetデータセットでトレーニングされた畳み込みニューラルネットワーク(CNN)のコンテキストにおいて、この現象を詳細に調査する。
スパースモデルでは, 高空間であっても, 高密度モデルの転送性能にマッチしたり, 性能に優れることを示す。
論文 参考訳(メタデータ) (2021-11-26T11:58:51Z) - MUSCLE: Strengthening Semi-Supervised Learning Via Concurrent
Unsupervised Learning Using Mutual Information Maximization [29.368950377171995]
我々は、教師なし学習と半教師なし学習を併用するために、相互情報に基づく教師なし・半教師付き並行学習(MUSCLE)を導入する。
MUSCLEはニューラルネットワークのスタンドアロントレーニングスキームとして使用することができ、他の学習手法にも組み込むことができる。
提案手法は,CIFAR-10,CIFAR-100,Mini-Imagenetなど,いくつかの標準ベンチマークにおいて,その性能に優れることを示す。
論文 参考訳(メタデータ) (2020-11-30T23:01:04Z) - Adversarially-Trained Deep Nets Transfer Better: Illustration on Image
Classification [53.735029033681435]
トランスファーラーニングは、訓練済みのディープニューラルネットワークを画像認識タスクに新しいドメインに適用するための強力な方法論である。
本研究では,非逆学習モデルよりも逆学習モデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2020-07-11T22:48:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。