論文の概要: Towards Inadequately Pre-trained Models in Transfer Learning
- arxiv url: http://arxiv.org/abs/2203.04668v3
- Date: Thu, 17 Aug 2023 03:27:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 01:47:37.236623
- Title: Towards Inadequately Pre-trained Models in Transfer Learning
- Title(参考訳): 転校学習における不適切な事前学習モデルに向けて
- Authors: Andong Deng, Xingjian Li, Di Hu, Tianyang Wang, Haoyi Xiong,
Chengzhong Xu
- Abstract要約: より優れたImageNet事前訓練モデルでは、下流タスクへの転送性が向上することが示されている。
本稿では,同じ事前学習過程において,十分に訓練されていない中新世のモデルが,完全に訓練されたモデルより優れていることを示す。
我々の発見は、事前学習中、モデルはまず大きな特異値に対応するスペクトル成分を学習する傾向があることを示唆している。
- 参考スコア(独自算出の注目度): 37.66278189011681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training has been a popular learning paradigm in deep learning era,
especially in annotation-insufficient scenario. Better ImageNet pre-trained
models have been demonstrated, from the perspective of architecture, by
previous research to have better transferability to downstream tasks. However,
in this paper, we found that during the same pre-training process, models at
middle epochs, which is inadequately pre-trained, can outperform fully trained
models when used as feature extractors (FE), while the fine-tuning (FT)
performance still grows with the source performance. This reveals that there is
not a solid positive correlation between top-1 accuracy on ImageNet and the
transferring result on target data. Based on the contradictory phenomenon
between FE and FT that better feature extractor fails to be fine-tuned better
accordingly, we conduct comprehensive analyses on features before softmax layer
to provide insightful explanations. Our discoveries suggest that, during
pre-training, models tend to first learn spectral components corresponding to
large singular values and the residual components contribute more when
fine-tuning.
- Abstract(参考訳): プレトレーニングは、ディープラーニング時代、特にアノテーション不足のシナリオにおいて、一般的な学習パラダイムである。
より優れたImageNet事前訓練モデルが、アーキテクチャの観点から、以前の研究で下流タスクへの転送性を改善するために実証されている。
しかし,本論文では,同じ事前学習過程において,機能抽出器 (FE) として使用する場合, 未訓練の中期のモデルでは十分に訓練されたモデルよりも優れ, 微調整 (FT) 性能は依然としてソース性能とともに向上することを示した。
これは、ImageNet上のトップ1精度とターゲットデータ上の転送結果との間には、確固とした正の相関がないことを明らかにする。
FEとFTの矛盾する現象に基づき,より優れた特徴抽出器の微調整を行なわず,ソフトマックス層以前の特徴を包括的に分析し,洞察に富んだ説明を行う。
我々の発見は、事前学習中、モデルはまず大きな特異値に対応するスペクトル成分を学習し、残差成分は微調整時により寄与することを示唆している。
関連論文リスト
- ImageNet-RIB Benchmark: Large Pre-Training Datasets Don't Guarantee Robustness after Fine-Tuning [30.422932548359952]
我々は、新しい堅牢な微調整ベンチマーク ImageNet-RIB (Robustness Inheritance Benchmark) を導入する。
ベンチマークは関連するが、個別の(ダウンストリーム)タスクで構成されている。
連続学習法であるEWCとLwFは微調整後の堅牢性を維持していることがわかった。
論文 参考訳(メタデータ) (2024-10-28T22:33:22Z) - Amuro & Char: Analyzing the Relationship between Pre-Training and Fine-Tuning of Large Language Models [17.288865972774587]
本研究では,複数の中間学習モデルチェックポイントの微調整による事前学習と微調整の関係について検討する。
18のデータセットで得られた結果は、事前学習が微調整後に発表される潜在的な方法でモデルを改善することを示唆している。
論文 参考訳(メタデータ) (2024-08-13T06:28:43Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Examining the Effect of Pre-training on Time Series Classification [21.38211396933795]
本研究では, プレトレーニング後の微調整が微調整過程に及ぼす影響について検討した。
150の分類データセットを網羅的に検討した。
事前学習は、データに適合しないモデルの最適化プロセスを改善するのにしか役立ちません。
事前学習データを追加することで一般化は向上しないが、元のデータボリュームの事前学習の利点を強化することができる。
論文 参考訳(メタデータ) (2023-09-11T06:26:57Z) - How Well Do Sparse Imagenet Models Transfer? [75.98123173154605]
転送学習は、大規模な"上流"データセットで事前訓練されたモデルが、"下流"データセットで良い結果を得るために適応される古典的なパラダイムである。
本研究では、ImageNetデータセットでトレーニングされた畳み込みニューラルネットワーク(CNN)のコンテキストにおいて、この現象を詳細に調査する。
スパースモデルでは, 高空間であっても, 高密度モデルの転送性能にマッチしたり, 性能に優れることを示す。
論文 参考訳(メタデータ) (2021-11-26T11:58:51Z) - Improved Fine-tuning by Leveraging Pre-training Data: Theory and
Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。
近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。
本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文 参考訳(メタデータ) (2021-11-24T06:18:32Z) - End-to-End Weak Supervision [15.125993628007972]
下流モデルを直接学習するためのエンドツーエンドアプローチを提案する。
下流テストセットにおけるエンドモデル性能の観点から,先行作業よりも性能が向上したことを示す。
論文 参考訳(メタデータ) (2021-07-05T19:10:11Z) - Self-Supervised Pretraining Improves Self-Supervised Pretraining [83.1423204498361]
自己教師付き事前トレーニングには、高価で長い計算と大量のデータが必要で、データ拡張に敏感である。
本稿では,既存の事前学習モデルを用いて事前学習プロセスを初期化することにより,収束時間を短縮し,精度を向上させる階層的事前学習(HPT)について検討する。
HPTが最大80倍速く収束し、タスク全体の精度が向上し、自己監視された事前トレーニングプロセスの堅牢性が、画像増強ポリシーまたは事前トレーニングデータの量の変化に改善されることを示します。
論文 参考訳(メタデータ) (2021-03-23T17:37:51Z) - Do Adversarially Robust ImageNet Models Transfer Better? [102.09335596483695]
逆向きに堅牢なモデルは、トランスファーラーニングに使用する場合、標準訓練されたモデルよりもよく機能する。
私たちの結果は、ロバストさが機能表現の改善につながるという最近の仮説と一致しています。
論文 参考訳(メタデータ) (2020-07-16T17:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。