論文の概要: Implicit regularization of multi-task learning and finetuning: multiple regimes of feature reuse
- arxiv url: http://arxiv.org/abs/2310.02396v3
- Date: Sun, 2 Jun 2024 11:30:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 20:50:48.266964
- Title: Implicit regularization of multi-task learning and finetuning: multiple regimes of feature reuse
- Title(参考訳): マルチタスク学習とファインタニングのインプシット正規化--機能再利用の複数の方法
- Authors: Samuel Lippl, Jack W. Lindsey,
- Abstract要約: 複数タスクの同時学習から生じる帰納的バイアス(マルチタスク学習, MTL)と逐次学習(事前学習, その後の微調整, PT+FT)について検討する。
対角線ネットワークおよび単層ReLUネットワークにおけるMTLおよびPT+FTに付随する新しい暗黙正則化法則について述べる。
これらの罰則は、MTLとPT+FTが異なる方法で機能を再利用するためにネットワークを誘導することを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we investigate the inductive biases that arise from learning multiple tasks, either simultaneously (multi-task learning, MTL) or sequentially (pretraining and subsequent finetuning, PT+FT). We describe novel implicit regularization penalties associated with MTL and PT+FT in diagonal linear networks and single-hidden-layer ReLU networks. These penalties indicate that MTL and PT+FT induce the network to reuse features in different ways. 1) Both MTL and PT+FT exhibit biases towards feature reuse between tasks, and towards sparsity in the set of learned features. We show a "conservation law" that implies a direct tradeoff between these two biases. Our results also imply that during finetuning, networks operate in a hybrid of the kernel (or "lazy") regime and the feature-learning ("rich") regime identified in prior work. 2) PT+FT exhibits a novel "nested feature selection" behavior not described by either the lazy or rich regimes, which biases it to extract a sparse subset of the features learned during pretraining. This regime is much narrower for MTL. 3) PT+FT (but not MTL) in ReLU networks benefits from features that are correlated between the auxiliary and main task. We confirm our insights empirically with teacher-student models. Finally, we validate our theory in deep neural networks trained on image classification tasks, finding that they may exhibit a nested feature selection regime. We also introduce a practical technique -- weight rescaling following pretraining -- and provide evidence that this method can improve finetuning performance by inducing the network to operate in the nested feature selection regime.
- Abstract(参考訳): 本研究では,複数タスクの同時学習から生じる帰納的バイアス(マルチタスク学習,MTL)と逐次学習(事前学習,その後の微調整,PT+FT)について検討する。
対角線ネットワークおよび単層ReLUネットワークにおけるMTLおよびPT+FTに付随する新しい暗黙正則化法則について述べる。
これらの罰則は、MTLとPT+FTが異なる方法で機能を再利用するためにネットワークを誘導することを示している。
1) MTL と PT+FT の両者は,タスク間の特徴再利用,学習した特徴の集合における疎性に偏りを示す。
これら2つのバイアス間の直接的なトレードオフを意味する「保守法則」を示します。
我々の結果は、微調整中は、ネットワークがカーネル(または「怠け者」)と機能学習(リッチ」)のハイブリッドで動作していることも示唆している。
2) PT+FTは, 遅延状態とリッチな状態のいずれにも記述されない, 新規な「ネストされた特徴選択」行動を示し, 事前訓練中に学習した特徴の疎い部分集合を抽出する傾向を示した。
この体制はMTLにとってより狭くなっている。
3) ReLU ネットワークにおける PT+FT (ただし MTL は含まない) は, 補助タスクと主タスクの相関する特徴の恩恵を受ける。
教師学生モデルを用いて,経験的考察を検証した。
最後に、画像分類タスクを訓練したディープニューラルネットワークにおける我々の理論を検証する。
また,本手法がネットワークをネストした特徴選択方式で動作させることで微調整性能を向上させることができることを示す。
関連論文リスト
- Visualising Feature Learning in Deep Neural Networks by Diagonalizing the Forward Feature Map [4.776836972093627]
本稿では,ディープニューラルネットワーク(DNN)を分解して特徴学習を分析する手法を提案する。
DNNはクラス数に等しい多くの固有関数に支配される最小特徴(MF)体制に収束する。
我々は、神経崩壊現象を、回帰のようなより広範なタスクに拡張できるカーネルイメージに再キャストする。
論文 参考訳(メタデータ) (2024-10-05T18:53:48Z) - Provable Multi-Task Representation Learning by Two-Layer ReLU Neural Networks [69.38572074372392]
本稿では,複数タスクにおける非線形モデルを用いたトレーニング中に特徴学習が発生することを示す最初の結果を示す。
私たちのキーとなる洞察は、マルチタスク事前トレーニングは、通常タスク間で同じラベルを持つポイントを整列する表現を好む擬似コントラスト的損失を誘導するということです。
論文 参考訳(メタデータ) (2023-07-13T16:39:08Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Learning an Invertible Output Mapping Can Mitigate Simplicity Bias in
Neural Networks [66.76034024335833]
バックボーンによって多様・複雑な特徴が学習される理由を考察し、その脆さは、主に最も単純な特徴に依存する線形分類ヘッドによるものである。
本稿では,学習した特徴がログから復元可能であることを保証するために,特徴再構成正則化器(FRR)を提案する。
我々は、最近導入された極端分布シフトを持つ半合成データセットにおいて、OOD精度が最大15%向上することを示した。
論文 参考訳(メタデータ) (2022-10-04T04:01:15Z) - Plateau in Monotonic Linear Interpolation -- A "Biased" View of Loss
Landscape for Deep Networks [18.71055320062469]
モノトニックリニア(英: Monotonic linear、MLI)は、ニューラルネットワークのトレーニングでよく見られる現象である。
MLI特性は最適化問題の硬さと必ずしも関係がないことを示す。
特に、重みと偏りを線形に補間することは、最終的な出力に非常に異なる影響をもたらすことを示す。
論文 参考訳(メタデータ) (2022-10-03T15:33:29Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Side-Tuning: A Baseline for Network Adaptation via Additive Side
Networks [95.51368472949308]
適応は、トレーニングデータが少ない場合や、ネットワークのプリエンプションをエンコードしたい場合などに有効である。
本稿では,サイドチューニングという簡単な方法を提案する。
論文 参考訳(メタデータ) (2019-12-31T18:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。