論文の概要: Inductive biases of multi-task learning and finetuning: multiple regimes of feature reuse
- arxiv url: http://arxiv.org/abs/2310.02396v4
- Date: Thu, 31 Oct 2024 19:22:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-04 21:01:11.481539
- Title: Inductive biases of multi-task learning and finetuning: multiple regimes of feature reuse
- Title(参考訳): マルチタスク学習と微調整の帰納バイアス--機能再利用の複数の方法
- Authors: Samuel Lippl, Jack W. Lindsey,
- Abstract要約: ニューラルネットワークは、複数のタスク(マルチタスク学習、MTL)とシーケンシャル(事前学習、その後の微調整、PT+FT)で訓練されることが多い。
このアプローチが普及しているにもかかわらず、複数のタスクの学習から生じる帰納的バイアスは、著しく特徴づけられる。
対角線ネットワークおよび単層ReLUネットワークにおけるMTLおよびPT+FTに付随する新しい暗黙正則化法則について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Neural networks are often trained on multiple tasks, either simultaneously (multi-task learning, MTL) or sequentially (pretraining and subsequent finetuning, PT+FT). In particular, it is common practice to pretrain neural networks on a large auxiliary task before finetuning on a downstream task with fewer samples. Despite the prevalence of this approach, the inductive biases that arise from learning multiple tasks are poorly characterized. In this work, we address this gap. We describe novel implicit regularization penalties associated with MTL and PT+FT in diagonal linear networks and single-hidden-layer ReLU networks. These penalties indicate that MTL and PT+FT induce the network to reuse features in different ways. 1) Both MTL and PT+FT exhibit biases towards feature reuse between tasks, and towards sparsity in the set of learned features. We show a "conservation law" that implies a direct tradeoff between these two biases. 2) PT+FT exhibits a novel "nested feature selection" regime, not described by either the "lazy" or "rich" regimes identified in prior work, which biases it to rely on a sparse subset of the features learned during pretraining. This regime is much narrower for MTL. 3) PT+FT (but not MTL) in ReLU networks benefits from features that are correlated between the auxiliary and main task. We confirm these findings empirically with teacher-student models, and introduce a technique -- weight rescaling following pretraining -- that can elicit the nested feature selection regime. Finally, we validate our theory in deep neural networks trained on image classification. We find that weight rescaling improves performance when it causes models to display signatures of nested feature selection. Our results suggest that nested feature selection may be an important inductive bias for finetuning neural networks.
- Abstract(参考訳): ニューラルネットワークは、複数のタスク(マルチタスク学習、MTL)とシーケンシャル(事前学習、その後の微調整、PT+FT)で同時にトレーニングされることが多い。
特に、より少ないサンプルで下流タスクを微調整する前に、大規模な補助タスクでニューラルネットワークを事前訓練することが一般的である。
このアプローチが普及しているにもかかわらず、複数のタスクの学習から生じる帰納的バイアスは、著しく特徴づけられる。
この作業では、このギャップに対処します。
対角線ネットワークおよび単層ReLUネットワークにおけるMTLおよびPT+FTに付随する新しい暗黙正則化法則について述べる。
これらの罰則は、MTLとPT+FTが異なる方法で機能を再利用するためにネットワークを誘導することを示している。
1) MTL と PT+FT の両者は,タスク間の特徴再利用,学習した特徴の集合における疎性に偏りを示す。
これら2つのバイアス間の直接的なトレードオフを意味する「保守法則」を示します。
2)PT+FTは,先行研究で特定された「怠慢」あるいは「豊かな」レジームによって説明されず,事前訓練中に学習した特徴の希少なサブセットに依存している,新しい「過酷な特徴選択」レジームを示す。
この体制はMTLにとってより狭くなっている。
3) ReLU ネットワークにおける PT+FT (ただし MTL は含まない) は, 補助タスクと主タスクの相関する特徴の恩恵を受ける。
これらの発見は、教師-学生モデルで実証的に確認し、ネストした特徴選択体制を引き出すことのできるテクニック、すなわち、事前トレーニング後のウェイト・リスケーリングを導入する。
最後に、画像分類を訓練したディープニューラルネットワークにおいて、我々の理論を検証する。
重み付け再スケーリングは、ネストした特徴選択のシグネチャをモデルに表示させると、性能が向上する。
この結果から,ネストした特徴選択はニューラルネットワークの微細化において重要な帰納バイアスとなる可能性が示唆された。
関連論文リスト
- Visualising Feature Learning in Deep Neural Networks by Diagonalizing the Forward Feature Map [4.776836972093627]
本稿では,ディープニューラルネットワーク(DNN)を分解して特徴学習を分析する手法を提案する。
DNNはクラス数に等しい多くの固有関数に支配される最小特徴(MF)体制に収束する。
我々は、神経崩壊現象を、回帰のようなより広範なタスクに拡張できるカーネルイメージに再キャストする。
論文 参考訳(メタデータ) (2024-10-05T18:53:48Z) - Provable Multi-Task Representation Learning by Two-Layer ReLU Neural Networks [69.38572074372392]
本稿では,複数タスクにおける非線形モデルを用いたトレーニング中に特徴学習が発生することを示す最初の結果を示す。
私たちのキーとなる洞察は、マルチタスク事前トレーニングは、通常タスク間で同じラベルを持つポイントを整列する表現を好む擬似コントラスト的損失を誘導するということです。
論文 参考訳(メタデータ) (2023-07-13T16:39:08Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Learning an Invertible Output Mapping Can Mitigate Simplicity Bias in
Neural Networks [66.76034024335833]
バックボーンによって多様・複雑な特徴が学習される理由を考察し、その脆さは、主に最も単純な特徴に依存する線形分類ヘッドによるものである。
本稿では,学習した特徴がログから復元可能であることを保証するために,特徴再構成正則化器(FRR)を提案する。
我々は、最近導入された極端分布シフトを持つ半合成データセットにおいて、OOD精度が最大15%向上することを示した。
論文 参考訳(メタデータ) (2022-10-04T04:01:15Z) - Plateau in Monotonic Linear Interpolation -- A "Biased" View of Loss
Landscape for Deep Networks [18.71055320062469]
モノトニックリニア(英: Monotonic linear、MLI)は、ニューラルネットワークのトレーニングでよく見られる現象である。
MLI特性は最適化問題の硬さと必ずしも関係がないことを示す。
特に、重みと偏りを線形に補間することは、最終的な出力に非常に異なる影響をもたらすことを示す。
論文 参考訳(メタデータ) (2022-10-03T15:33:29Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Side-Tuning: A Baseline for Network Adaptation via Additive Side
Networks [95.51368472949308]
適応は、トレーニングデータが少ない場合や、ネットワークのプリエンプションをエンコードしたい場合などに有効である。
本稿では,サイドチューニングという簡単な方法を提案する。
論文 参考訳(メタデータ) (2019-12-31T18:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。