Fugu-MT 論文翻訳(概要): Overfreezing Meets Overparameterization: A Double Descent Perspective on Transfer Learning of Deep Neural Networks

論文の概要: Overfreezing Meets Overparameterization: A Double Descent Perspective on Transfer Learning of Deep Neural Networks

arxiv url: http://arxiv.org/abs/2211.11074v1
Date: Sun, 20 Nov 2022 20:26:23 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-22 21:52:19.355181
Title: Overfreezing Meets Overparameterization: A Double Descent Perspective on Transfer Learning of Deep Neural Networks
Title（参考訳）: Overfreezing Meets Overparameterization:Double Descent Perspective on Transfer Learning of Deep Neural Networks
Authors: Yehuda Dar, Lorenzo Luzi, Richard G. Baraniuk
Abstract要約: ディープニューラルネットワーク(DNN)の伝達学習の一般化挙動について検討する。本研究では,移動学習の一般化行動が,ソースおよびターゲットタスクにおけるデータセットサイズの影響について検討する。凍結した層が多すぎると、関連するソースタスクからの転送がより良くなり、関連するソースタスクからの転送と同等になる可能性がある。
参考スコア（独自算出の注目度）: 27.17697714584768
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study the generalization behavior of transfer learning of deep neural networks (DNNs). We adopt the overparameterization perspective -- featuring interpolation of the training data (i.e., approximately zero train error) and the double descent phenomenon -- to explain the delicate effect of the transfer learning setting on generalization performance. We study how the generalization behavior of transfer learning is affected by the dataset size in the source and target tasks, the number of transferred layers that are kept frozen in the target DNN training, and the similarity between the source and target tasks. We show that the test error evolution during the target DNN training has a more significant double descent effect when the target training dataset is sufficiently large with some label noise. In addition, a larger source training dataset can delay the arrival to interpolation and double descent peak in the target DNN training. Moreover, we demonstrate that the number of frozen layers can determine whether the transfer learning is effectively underparameterized or overparameterized and, in turn, this may affect the relative success or failure of learning. Specifically, we show that too many frozen layers may make a transfer from a less related source task better or on par with a transfer from a more related source task; we call this case overfreezing. We establish our results using image classification experiments with the residual network (ResNet) and vision transformer (ViT) architectures.
Abstract（参考訳）: 本稿では,ディープニューラルネットワーク(DNN)の伝達学習の一般化挙動について検討する。本稿では,訓練データの補間(約0列車誤差)と二重降下現象を特徴とする過パラメータ化の観点を採用し,一般化性能に対する伝達学習設定の微妙な影響を説明する。本研究では,移動学習の一般化行動が,ソースとターゲットタスクのデータセットサイズ,ターゲットDNNトレーニングで凍結されている移動層数,ソースとターゲットタスクの類似性にどのように影響するかを検討する。対象のDNNトレーニングにおけるテストエラーの進化は、目標のトレーニングデータセットがラベルノイズに十分大きな場合、より顕著な二重降下効果を有することを示す。さらに、より大きなソーストレーニングデータセットは、ターゲットのdnnトレーニングにおける補間とダブル降下ピークの到達を遅らせることができる。さらに, 凍結層数によって, 伝達学習が効果的に過小パラメータ化されているか過小パラメータ化されているかを決定することができ, 学習の相対的成功や失敗に影響を及ぼす可能性がある。具体的には、凍結した層が多すぎると、関連するソースタスクからの転送がより良くなり、あるいは関連するソースタスクからの転送と同等になる可能性があることを示します。残差ネットワーク (ResNet) と視覚変換器 (ViT) アーキテクチャを用いて画像分類実験を行った。

関連論文リスト

Transfer Learning in Infinite Width Feature Learning Networks [35.95321041944522]
本研究では,事前学習(ソース)タスクと下流(ターゲット)タスクの両方を特徴学習システムで操作可能な,無限に広いニューラルネットワークにおける伝達学習理論を開発する。重みに対する後続分布によって学習が記述されるベイズ的枠組みと、重み劣化を訓練したランダム勾配ネットワークの勾配流訓練の両方を分析した。これらの理論の要約統計は、転送学習の後、ソースとターゲットの両方のタスクのデータとラベルに依存する特徴カーネルに適応している。
論文参考訳（メタデータ） (2025-07-06T16:14:43Z)
Features are fate: a theory of transfer learning in high-dimensional regression [23.840251319669907]
対象タスクが事前学習されたモデルの特徴空間で適切に表現されている場合、転送学習はスクラッチからトレーニングに優れることを示す。本モデルでは, 音源と目標タスクの重なり合う特徴空間が十分に強い場合, 線形転送と微調整の両方で性能が向上することを確認した。
論文参考訳（メタデータ） (2024-10-10T17:58:26Z)
Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文参考訳（メタデータ） (2024-02-28T08:34:23Z)
Evaluating the structure of cognitive tasks with transfer learning [67.22168759751541]
本研究では,脳波復号処理における深層学習表現の伝達可能性について検討した。最近リリースされた2つのEEGデータセット上で、最先端デコードモデルを用いて広範な実験を行う。
論文参考訳（メタデータ） (2023-07-28T14:51:09Z)
Deep Augmentation: Self-Supervised Learning with Transformations in Activation Space [19.495587566796278]
我々は、Deep Augmentationを導入し、DropoutまたはPCAを使用して暗黙のデータ拡張を行い、ニューラルネットワーク内のターゲット層を変換し、パフォーマンスと一般化を改善する。我々は、NLP、コンピュータビジョン、グラフ学習におけるコントラスト学習タスクに関する広範な実験を通して、Deep Augmentationを実証する。
論文参考訳（メタデータ） (2023-03-25T19:03:57Z)
An Exploration of Data Efficiency in Intra-Dataset Task Transfer for Dialog Understanding [65.75873687351553]
本研究は,対話領域における逐次移動学習における目標タスク訓練データ量の影響について検討する。非意図的に、我々のデータでは、タスクトレーニングデータのサイズを目標とする場合、シーケンシャルトランスファーラーニングがトランスファーラーニングなしで同じモデルと比較した場合、最小限の効果が示される。
論文参考訳（メタデータ） (2022-10-21T04:36:46Z)
Meta-learning Transferable Representations with a Single Target Domain [46.83481356352768]
微調整とジョイントトレーニングは、下流タスクの精度を常に向上させるわけではない。伝達可能な特徴を学習するためのメタ表現学習(MeRLin)を提案する。 MeRLinは、様々な実世界のビジョンとNLP転送学習ベンチマークにおいて、従来の最先端のトランスファー学習アルゴリズムを実証的に上回っている。
論文参考訳（メタデータ） (2020-11-03T01:57:37Z)
Towards Accurate Knowledge Transfer via Target-awareness Representation Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。 TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文参考訳（メタデータ） (2020-10-16T17:45:08Z)
Understanding the Effects of Data Parallelism and Sparsity on Neural Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文参考訳（メタデータ） (2020-03-25T10:49:22Z)
Curriculum By Smoothing [52.08553521577014]
畳み込みニューラルネットワーク(CNN)は、画像分類、検出、セグメンテーションなどのコンピュータビジョンタスクにおいて顕著な性能を示している。アンチエイリアスフィルタやローパスフィルタを用いてCNNの機能埋め込みを円滑化するエレガントなカリキュラムベースのスキームを提案する。トレーニング中に特徴マップ内の情報量が増加するにつれて、ネットワークはデータのより優れた表現を徐々に学習することができる。
論文参考訳（メタデータ） (2020-03-03T07:27:44Z)
Inter- and Intra-domain Knowledge Transfer for Related Tasks in Deep Character Recognition [2.320417845168326]
ImageNetデータセットでディープニューラルネットワークを事前トレーニングすることは、ディープラーニングモデルをトレーニングするための一般的なプラクティスである。 1つのタスクで事前トレーニングを行い、新しいタスクで再トレーニングするテクニックは、トランスファーラーニング(transfer learning)と呼ばれる。本稿では,文字認識タスクにおけるDeep Transfer Learningの有効性について分析する。
論文参考訳（メタデータ） (2020-01-02T14:18:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。