論文の概要: Overfreezing Meets Overparameterization: A Double Descent Perspective on
Transfer Learning of Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2211.11074v1
- Date: Sun, 20 Nov 2022 20:26:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 21:52:19.355181
- Title: Overfreezing Meets Overparameterization: A Double Descent Perspective on
Transfer Learning of Deep Neural Networks
- Title(参考訳): Overfreezing Meets Overparameterization:Double Descent Perspective on Transfer Learning of Deep Neural Networks
- Authors: Yehuda Dar, Lorenzo Luzi, Richard G. Baraniuk
- Abstract要約: ディープニューラルネットワーク(DNN)の伝達学習の一般化挙動について検討する。
本研究では,移動学習の一般化行動が,ソースおよびターゲットタスクにおけるデータセットサイズの影響について検討する。
凍結した層が多すぎると、関連するソースタスクからの転送がより良くなり、関連するソースタスクからの転送と同等になる可能性がある。
- 参考スコア(独自算出の注目度): 27.17697714584768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the generalization behavior of transfer learning of deep neural
networks (DNNs). We adopt the overparameterization perspective -- featuring
interpolation of the training data (i.e., approximately zero train error) and
the double descent phenomenon -- to explain the delicate effect of the transfer
learning setting on generalization performance. We study how the generalization
behavior of transfer learning is affected by the dataset size in the source and
target tasks, the number of transferred layers that are kept frozen in the
target DNN training, and the similarity between the source and target tasks. We
show that the test error evolution during the target DNN training has a more
significant double descent effect when the target training dataset is
sufficiently large with some label noise. In addition, a larger source training
dataset can delay the arrival to interpolation and double descent peak in the
target DNN training. Moreover, we demonstrate that the number of frozen layers
can determine whether the transfer learning is effectively underparameterized
or overparameterized and, in turn, this may affect the relative success or
failure of learning. Specifically, we show that too many frozen layers may make
a transfer from a less related source task better or on par with a transfer
from a more related source task; we call this case overfreezing. We establish
our results using image classification experiments with the residual network
(ResNet) and vision transformer (ViT) architectures.
- Abstract(参考訳): 本稿では,ディープニューラルネットワーク(DNN)の伝達学習の一般化挙動について検討する。
本稿では,訓練データの補間(約0列車誤差)と二重降下現象を特徴とする過パラメータ化の観点を採用し,一般化性能に対する伝達学習設定の微妙な影響を説明する。
本研究では,移動学習の一般化行動が,ソースとターゲットタスクのデータセットサイズ,ターゲットDNNトレーニングで凍結されている移動層数,ソースとターゲットタスクの類似性にどのように影響するかを検討する。
対象のDNNトレーニングにおけるテストエラーの進化は、目標のトレーニングデータセットがラベルノイズに十分大きな場合、より顕著な二重降下効果を有することを示す。
さらに、より大きなソーストレーニングデータセットは、ターゲットのdnnトレーニングにおける補間とダブル降下ピークの到達を遅らせることができる。
さらに, 凍結層数によって, 伝達学習が効果的に過小パラメータ化されているか過小パラメータ化されているかを決定することができ, 学習の相対的成功や失敗に影響を及ぼす可能性がある。
具体的には、凍結した層が多すぎると、関連するソースタスクからの転送がより良くなり、あるいは関連するソースタスクからの転送と同等になる可能性があることを示します。
残差ネットワーク (ResNet) と視覚変換器 (ViT) アーキテクチャを用いて画像分類実験を行った。
関連論文リスト
- Features are fate: a theory of transfer learning in high-dimensional regression [23.840251319669907]
対象タスクが事前学習されたモデルの特徴空間で適切に表現されている場合、転送学習はスクラッチからトレーニングに優れることを示す。
本モデルでは, 音源と目標タスクの重なり合う特徴空間が十分に強い場合, 線形転送と微調整の両方で性能が向上することを確認した。
論文 参考訳(メタデータ) (2024-10-10T17:58:26Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Evaluating the structure of cognitive tasks with transfer learning [67.22168759751541]
本研究では,脳波復号処理における深層学習表現の伝達可能性について検討した。
最近リリースされた2つのEEGデータセット上で、最先端デコードモデルを用いて広範な実験を行う。
論文 参考訳(メタデータ) (2023-07-28T14:51:09Z) - Deep Augmentation: Self-Supervised Learning with Transformations in Activation Space [19.495587566796278]
我々は、Deep Augmentationを導入し、DropoutまたはPCAを使用して暗黙のデータ拡張を行い、ニューラルネットワーク内のターゲット層を変換し、パフォーマンスと一般化を改善する。
我々は、NLP、コンピュータビジョン、グラフ学習におけるコントラスト学習タスクに関する広範な実験を通して、Deep Augmentationを実証する。
論文 参考訳(メタデータ) (2023-03-25T19:03:57Z) - An Exploration of Data Efficiency in Intra-Dataset Task Transfer for
Dialog Understanding [65.75873687351553]
本研究は,対話領域における逐次移動学習における目標タスク訓練データ量の影響について検討する。
非意図的に、我々のデータでは、タスクトレーニングデータのサイズを目標とする場合、シーケンシャルトランスファーラーニングがトランスファーラーニングなしで同じモデルと比較した場合、最小限の効果が示される。
論文 参考訳(メタデータ) (2022-10-21T04:36:46Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z) - Curriculum By Smoothing [52.08553521577014]
畳み込みニューラルネットワーク(CNN)は、画像分類、検出、セグメンテーションなどのコンピュータビジョンタスクにおいて顕著な性能を示している。
アンチエイリアスフィルタやローパスフィルタを用いてCNNの機能埋め込みを円滑化するエレガントなカリキュラムベースのスキームを提案する。
トレーニング中に特徴マップ内の情報量が増加するにつれて、ネットワークはデータのより優れた表現を徐々に学習することができる。
論文 参考訳(メタデータ) (2020-03-03T07:27:44Z) - Inter- and Intra-domain Knowledge Transfer for Related Tasks in Deep
Character Recognition [2.320417845168326]
ImageNetデータセットでディープニューラルネットワークを事前トレーニングすることは、ディープラーニングモデルをトレーニングするための一般的なプラクティスである。
1つのタスクで事前トレーニングを行い、新しいタスクで再トレーニングするテクニックは、トランスファーラーニング(transfer learning)と呼ばれる。
本稿では,文字認識タスクにおけるDeep Transfer Learningの有効性について分析する。
論文 参考訳(メタデータ) (2020-01-02T14:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。