論文の概要: Overfreezing Meets Overparameterization: A Double Descent Perspective on
Transfer Learning of Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2211.11074v1
- Date: Sun, 20 Nov 2022 20:26:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 21:52:19.355181
- Title: Overfreezing Meets Overparameterization: A Double Descent Perspective on
Transfer Learning of Deep Neural Networks
- Title(参考訳): Overfreezing Meets Overparameterization:Double Descent Perspective on Transfer Learning of Deep Neural Networks
- Authors: Yehuda Dar, Lorenzo Luzi, Richard G. Baraniuk
- Abstract要約: ディープニューラルネットワーク(DNN)の伝達学習の一般化挙動について検討する。
本研究では,移動学習の一般化行動が,ソースおよびターゲットタスクにおけるデータセットサイズの影響について検討する。
凍結した層が多すぎると、関連するソースタスクからの転送がより良くなり、関連するソースタスクからの転送と同等になる可能性がある。
- 参考スコア(独自算出の注目度): 27.17697714584768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the generalization behavior of transfer learning of deep neural
networks (DNNs). We adopt the overparameterization perspective -- featuring
interpolation of the training data (i.e., approximately zero train error) and
the double descent phenomenon -- to explain the delicate effect of the transfer
learning setting on generalization performance. We study how the generalization
behavior of transfer learning is affected by the dataset size in the source and
target tasks, the number of transferred layers that are kept frozen in the
target DNN training, and the similarity between the source and target tasks. We
show that the test error evolution during the target DNN training has a more
significant double descent effect when the target training dataset is
sufficiently large with some label noise. In addition, a larger source training
dataset can delay the arrival to interpolation and double descent peak in the
target DNN training. Moreover, we demonstrate that the number of frozen layers
can determine whether the transfer learning is effectively underparameterized
or overparameterized and, in turn, this may affect the relative success or
failure of learning. Specifically, we show that too many frozen layers may make
a transfer from a less related source task better or on par with a transfer
from a more related source task; we call this case overfreezing. We establish
our results using image classification experiments with the residual network
(ResNet) and vision transformer (ViT) architectures.
- Abstract(参考訳): 本稿では,ディープニューラルネットワーク(DNN)の伝達学習の一般化挙動について検討する。
本稿では,訓練データの補間(約0列車誤差)と二重降下現象を特徴とする過パラメータ化の観点を採用し,一般化性能に対する伝達学習設定の微妙な影響を説明する。
本研究では,移動学習の一般化行動が,ソースとターゲットタスクのデータセットサイズ,ターゲットDNNトレーニングで凍結されている移動層数,ソースとターゲットタスクの類似性にどのように影響するかを検討する。
対象のDNNトレーニングにおけるテストエラーの進化は、目標のトレーニングデータセットがラベルノイズに十分大きな場合、より顕著な二重降下効果を有することを示す。
さらに、より大きなソーストレーニングデータセットは、ターゲットのdnnトレーニングにおける補間とダブル降下ピークの到達を遅らせることができる。
さらに, 凍結層数によって, 伝達学習が効果的に過小パラメータ化されているか過小パラメータ化されているかを決定することができ, 学習の相対的成功や失敗に影響を及ぼす可能性がある。
具体的には、凍結した層が多すぎると、関連するソースタスクからの転送がより良くなり、あるいは関連するソースタスクからの転送と同等になる可能性があることを示します。
残差ネットワーク (ResNet) と視覚変換器 (ViT) アーキテクチャを用いて画像分類実験を行った。
関連論文リスト
- Evaluating the structure of cognitive tasks with transfer learning [67.22168759751541]
本研究では,脳波復号処理における深層学習表現の伝達可能性について検討した。
最近リリースされた2つのEEGデータセット上で、最先端デコードモデルを用いて広範な実験を行う。
論文 参考訳(メタデータ) (2023-07-28T14:51:09Z) - Principled and Efficient Transfer Learning of Deep Models via Neural
Collapse [35.365366092030904]
この研究は、神経崩壊(NC)と呼ばれる興味深い現象を通して、伝達学習の謎を掘り下げる
i) 事前学習時のモデル, クラス内変動の崩壊防止(ある程度)は, 入力データの内在的構造をよりよく保存し, モデル伝達性の向上につながること, (ii) 下流タスクの微調整モデルでは, 下流データ上でよりNCの高い特徴を得ることにより, 与えられたタスクの精度が向上すること, などである。
論文 参考訳(メタデータ) (2022-12-23T08:48:34Z) - Layer-wise Shared Attention Network on Dynamical System Perspective [69.45492795788167]
本稿では,複数のネットワーク層にまたがって単一の注目モジュールを共有するDIAユニットという,新規かつ簡易なフレームワークを提案する。
当社のフレームワークでは,パラメータコストはレイヤ数とは無関係であり,既存の自己注意モジュールの精度をさらに向上する。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - An Exploration of Data Efficiency in Intra-Dataset Task Transfer for
Dialog Understanding [65.75873687351553]
本研究は,対話領域における逐次移動学習における目標タスク訓練データ量の影響について検討する。
非意図的に、我々のデータでは、タスクトレーニングデータのサイズを目標とする場合、シーケンシャルトランスファーラーニングがトランスファーラーニングなしで同じモデルと比較した場合、最小限の効果が示される。
論文 参考訳(メタデータ) (2022-10-21T04:36:46Z) - Meta-learning Transferable Representations with a Single Target Domain [46.83481356352768]
微調整とジョイントトレーニングは、下流タスクの精度を常に向上させるわけではない。
伝達可能な特徴を学習するためのメタ表現学習(MeRLin)を提案する。
MeRLinは、様々な実世界のビジョンとNLP転送学習ベンチマークにおいて、従来の最先端のトランスファー学習アルゴリズムを実証的に上回っている。
論文 参考訳(メタデータ) (2020-11-03T01:57:37Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z) - Curriculum By Smoothing [52.08553521577014]
畳み込みニューラルネットワーク(CNN)は、画像分類、検出、セグメンテーションなどのコンピュータビジョンタスクにおいて顕著な性能を示している。
アンチエイリアスフィルタやローパスフィルタを用いてCNNの機能埋め込みを円滑化するエレガントなカリキュラムベースのスキームを提案する。
トレーニング中に特徴マップ内の情報量が増加するにつれて、ネットワークはデータのより優れた表現を徐々に学習することができる。
論文 参考訳(メタデータ) (2020-03-03T07:27:44Z) - Inter- and Intra-domain Knowledge Transfer for Related Tasks in Deep
Character Recognition [2.320417845168326]
ImageNetデータセットでディープニューラルネットワークを事前トレーニングすることは、ディープラーニングモデルをトレーニングするための一般的なプラクティスである。
1つのタスクで事前トレーニングを行い、新しいタスクで再トレーニングするテクニックは、トランスファーラーニング(transfer learning)と呼ばれる。
本稿では,文字認識タスクにおけるDeep Transfer Learningの有効性について分析する。
論文 参考訳(メタデータ) (2020-01-02T14:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。