論文の概要: Frozen Overparameterization: A Double Descent Perspective on Transfer
Learning of Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2211.11074v2
- Date: Mon, 12 Jun 2023 17:39:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 02:11:14.994453
- Title: Frozen Overparameterization: A Double Descent Perspective on Transfer
Learning of Deep Neural Networks
- Title(参考訳): 凍結過剰パラメータ化:ディープニューラルネットワークの転送学習における二重降下視点
- Authors: Yehuda Dar, Lorenzo Luzi, Richard G. Baraniuk
- Abstract要約: ディープニューラルネットワーク(DNN)の伝達学習の一般化挙動について検討する。
目標トレーニング中のテストエラーの進化は、目標トレーニングデータセットが十分に大きい場合、より顕著な二重降下効果を有することを示す。
また、二重降下現象は、より関連するソースタスクからの転送よりも、関連するソースタスクからの転送をより良くする可能性があることを示す。
- 参考スコア(独自算出の注目度): 27.17697714584768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the generalization behavior of transfer learning of deep neural
networks (DNNs). We adopt the overparameterization perspective -- featuring
interpolation of the training data (i.e., approximately zero train error) and
the double descent phenomenon -- to explain the delicate effect of the transfer
learning setting on generalization performance. We study how the generalization
behavior of transfer learning is affected by the dataset size in the source and
target tasks, the number of transferred layers that are kept frozen in the
target DNN training, and the similarity between the source and target tasks. We
show that the test error evolution during the target DNN training has a more
significant double descent effect when the target training dataset is
sufficiently large. In addition, a larger source training dataset can yield a
slower target DNN training. Moreover, we demonstrate that the number of frozen
layers can determine whether the transfer learning is effectively
underparameterized or overparameterized and, in turn, this may induce a
freezing-wise double descent phenomenon that determines the relative success or
failure of learning. Also, we show that the double descent phenomenon may make
a transfer from a less related source task better than a transfer from a more
related source task. We establish our results using image classification
experiments with the ResNet, DenseNet and the vision transformer (ViT)
architectures.
- Abstract(参考訳): 本稿では,ディープニューラルネットワーク(DNN)の伝達学習の一般化挙動について検討する。
本稿では,訓練データの補間(約0列車誤差)と二重降下現象を特徴とする過パラメータ化の観点を採用し,一般化性能に対する伝達学習設定の微妙な影響を説明する。
本研究では,移動学習の一般化行動が,ソースとターゲットタスクのデータセットサイズ,ターゲットDNNトレーニングで凍結されている移動層数,ソースとターゲットタスクの類似性にどのように影響するかを検討する。
対象のdnnトレーニング中のテストエラー発生は,目標トレーニングデータセットが十分に大きい場合には,より大きな二重降下効果を示す。
さらに、より大きなソーストレーニングデータセットは、ターゲットのDNNトレーニングを遅くすることができる。
さらに, 凍結層の数によって, 転送学習が効果的に過度にパラメータ化されているか過度にパラメータ化されているかが決定できることを示す。
また、二重降下現象は、より関連するソースタスクからの転送よりも、関連するソースタスクからの転送をより良くする可能性があることを示す。
resnet, densenet および vision transformer (vit) アーキテクチャを用いた画像分類実験により,この結果を確立した。
関連論文リスト
- Features are fate: a theory of transfer learning in high-dimensional regression [23.840251319669907]
対象タスクが事前学習されたモデルの特徴空間で適切に表現されている場合、転送学習はスクラッチからトレーニングに優れることを示す。
本モデルでは, 音源と目標タスクの重なり合う特徴空間が十分に強い場合, 線形転送と微調整の両方で性能が向上することを確認した。
論文 参考訳(メタデータ) (2024-10-10T17:58:26Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Evaluating the structure of cognitive tasks with transfer learning [67.22168759751541]
本研究では,脳波復号処理における深層学習表現の伝達可能性について検討した。
最近リリースされた2つのEEGデータセット上で、最先端デコードモデルを用いて広範な実験を行う。
論文 参考訳(メタデータ) (2023-07-28T14:51:09Z) - Deep Augmentation: Self-Supervised Learning with Transformations in Activation Space [19.495587566796278]
我々は、Deep Augmentationを導入し、DropoutまたはPCAを使用して暗黙のデータ拡張を行い、ニューラルネットワーク内のターゲット層を変換し、パフォーマンスと一般化を改善する。
我々は、NLP、コンピュータビジョン、グラフ学習におけるコントラスト学習タスクに関する広範な実験を通して、Deep Augmentationを実証する。
論文 参考訳(メタデータ) (2023-03-25T19:03:57Z) - An Exploration of Data Efficiency in Intra-Dataset Task Transfer for
Dialog Understanding [65.75873687351553]
本研究は,対話領域における逐次移動学習における目標タスク訓練データ量の影響について検討する。
非意図的に、我々のデータでは、タスクトレーニングデータのサイズを目標とする場合、シーケンシャルトランスファーラーニングがトランスファーラーニングなしで同じモデルと比較した場合、最小限の効果が示される。
論文 参考訳(メタデータ) (2022-10-21T04:36:46Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z) - Curriculum By Smoothing [52.08553521577014]
畳み込みニューラルネットワーク(CNN)は、画像分類、検出、セグメンテーションなどのコンピュータビジョンタスクにおいて顕著な性能を示している。
アンチエイリアスフィルタやローパスフィルタを用いてCNNの機能埋め込みを円滑化するエレガントなカリキュラムベースのスキームを提案する。
トレーニング中に特徴マップ内の情報量が増加するにつれて、ネットワークはデータのより優れた表現を徐々に学習することができる。
論文 参考訳(メタデータ) (2020-03-03T07:27:44Z) - Inter- and Intra-domain Knowledge Transfer for Related Tasks in Deep
Character Recognition [2.320417845168326]
ImageNetデータセットでディープニューラルネットワークを事前トレーニングすることは、ディープラーニングモデルをトレーニングするための一般的なプラクティスである。
1つのタスクで事前トレーニングを行い、新しいタスクで再トレーニングするテクニックは、トランスファーラーニング(transfer learning)と呼ばれる。
本稿では,文字認識タスクにおけるDeep Transfer Learningの有効性について分析する。
論文 参考訳(メタデータ) (2020-01-02T14:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。