論文の概要: Implicit regularization of multi-task learning and finetuning in
overparameterized neural networks
- arxiv url: http://arxiv.org/abs/2310.02396v2
- Date: Thu, 7 Mar 2024 17:47:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 17:59:35.377774
- Title: Implicit regularization of multi-task learning and finetuning in
overparameterized neural networks
- Title(参考訳): 過パラメータニューラルネットワークにおけるマルチタスク学習と微調整の暗黙正則化
- Authors: Jack W. Lindsey and Samuel Lippl
- Abstract要約: 複数タスクの同時学習(マルチタスク学習、MTL)または逐次学習(事前学習、その後の微調整、PT+FT)による帰納的バイアスについて検討する。
PT+FTは, いずれの体制にも適用されず, 事前訓練中に学習した特徴の少ない部分集合を抽出する, 新たな「ネストされた特徴選択」行動を示すことができることを示す。
その結果、補助的なタスク学習の影響に光を当て、より効果的に活用する方法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we investigate the inductive biases that result from learning
multiple tasks, either simultaneously (multi-task learning, MTL) or
sequentially (pretraining and subsequent finetuning, PT+FT). In the simplified
setting of two-layer diagonal linear networks trained with gradient descent, we
apply prior theoretical results to describe novel implicit regularization
penalties associated with MTL and PT+FT, both of which incentivize feature
sharing between tasks and sparsity in learned task-specific features. Notably,
these results imply that during finetuning, networks operate in a hybrid of the
kernel (or "lazy") regime and the feature learning ("rich") regime identified
in prior work. Moreover, we show that PT+FT can exhibit a novel "nested feature
selection" behavior not captured by either regime, which biases it to extract a
sparse subset of the features learned during pretraining. In ReLU networks, we
reproduce all of these qualitative behaviors empirically, in particular
verifying that analogues of the sparsity biases predicted by the linear theory
hold in the nonlinear case. Our findings hold qualitatively for a deep
architecture trained on image classification tasks, and our characterization of
the nested feature selection regime motivates a modification to PT+FT that we
find empirically improves performance. We also observe that PT+FT (but not MTL)
is biased to learn features that are correlated with (but distinct from) those
needed for the auxiliary task, while MTL is biased toward using identical
features for both tasks, which can lead to a tradeoff in performance as a
function of the number of finetuning samples. Our results shed light on the
impact of auxiliary task learning and suggest ways to leverage it more
effectively.
- Abstract(参考訳): 本研究では,複数タスクの同時学習(マルチタスク学習,MTL)や逐次学習(事前学習,その後の微調整,PT+FT)による帰納的バイアスについて検討する。
勾配降下法で訓練された2層対角線ネットワークの簡易な設定において,MTL と PT+FT に付随する新しい暗黙正則化法則を記述するために,従来の理論的結果を適用した。
これらの結果は、微調整の間、ネットワークが前処理で特定されたカーネル(または「怠け者」)と特徴学習(リッチ」)のハイブリッドで動作することを示している。
さらに, PT+FTは, どちらのレジームにも捕えられず, 事前学習中に学習した特徴のスパースサブセットを抽出する, 新たな「ネストされた特徴選択」行動を示すことを示す。
ReLUネットワークでは、これらの定性的挙動を経験的に再現し、特に非線形の場合において線形理論によって予測される空間バイアスの類似性を検証する。
画像分類タスクを訓練した深層アーキテクチャを定性的に評価し,ネストした特徴選択機構の特性はPT+FTの修正を動機付け,性能を実証的に改善すると考えられる。
また、PT+FT(MTLではない)は補助作業に必要な機能と相関する(ただし、異なる)特徴を学習するために偏りがあるのに対し、MPLは両方のタスクで同一の機能を使用することに偏りがあり、微調整サンプル数の関数として性能のトレードオフにつながる可能性がある。
その結果、補助タスク学習の効果に光を当て、より効果的に活用する方法を提案しました。
関連論文リスト
- Visualising Feature Learning in Deep Neural Networks by Diagonalizing the Forward Feature Map [4.776836972093627]
本稿では,ディープニューラルネットワーク(DNN)を分解して特徴学習を分析する手法を提案する。
DNNはクラス数に等しい多くの固有関数に支配される最小特徴(MF)体制に収束する。
我々は、神経崩壊現象を、回帰のようなより広範なタスクに拡張できるカーネルイメージに再キャストする。
論文 参考訳(メタデータ) (2024-10-05T18:53:48Z) - Provable Multi-Task Representation Learning by Two-Layer ReLU Neural Networks [69.38572074372392]
本稿では,複数タスクにおける非線形モデルを用いたトレーニング中に特徴学習が発生することを示す最初の結果を示す。
私たちのキーとなる洞察は、マルチタスク事前トレーニングは、通常タスク間で同じラベルを持つポイントを整列する表現を好む擬似コントラスト的損失を誘導するということです。
論文 参考訳(メタデータ) (2023-07-13T16:39:08Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Learning an Invertible Output Mapping Can Mitigate Simplicity Bias in
Neural Networks [66.76034024335833]
バックボーンによって多様・複雑な特徴が学習される理由を考察し、その脆さは、主に最も単純な特徴に依存する線形分類ヘッドによるものである。
本稿では,学習した特徴がログから復元可能であることを保証するために,特徴再構成正則化器(FRR)を提案する。
我々は、最近導入された極端分布シフトを持つ半合成データセットにおいて、OOD精度が最大15%向上することを示した。
論文 参考訳(メタデータ) (2022-10-04T04:01:15Z) - Plateau in Monotonic Linear Interpolation -- A "Biased" View of Loss
Landscape for Deep Networks [18.71055320062469]
モノトニックリニア(英: Monotonic linear、MLI)は、ニューラルネットワークのトレーニングでよく見られる現象である。
MLI特性は最適化問題の硬さと必ずしも関係がないことを示す。
特に、重みと偏りを線形に補間することは、最終的な出力に非常に異なる影響をもたらすことを示す。
論文 参考訳(メタデータ) (2022-10-03T15:33:29Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Side-Tuning: A Baseline for Network Adaptation via Additive Side
Networks [95.51368472949308]
適応は、トレーニングデータが少ない場合や、ネットワークのプリエンプションをエンコードしたい場合などに有効である。
本稿では,サイドチューニングという簡単な方法を提案する。
論文 参考訳(メタデータ) (2019-12-31T18:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。