Fugu-MT 論文翻訳(概要): Implicit regularization of multi-task learning and finetuning in overparameterized neural networks

論文の概要: Implicit regularization of multi-task learning and finetuning in overparameterized neural networks

arxiv url: http://arxiv.org/abs/2310.02396v1
Date: Tue, 3 Oct 2023 19:39:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-05 17:51:50.989071
Title: Implicit regularization of multi-task learning and finetuning in overparameterized neural networks
Title（参考訳）: 過パラメータニューラルネットワークにおけるマルチタスク学習と微調整の暗黙正則化
Authors: Jack W. Lindsey and Samuel Lippl
Abstract要約: ディープラーニングでは、学習が少なくとも部分的には別の関心のあるタスクに移ることを期待して、補助的なタスクでネットワークを訓練することが一般的である。複数タスク学習(マルチタスク学習, MTL)と逐次学習(事前学習, その後の微調整, PT+FT)の同時学習による帰納的バイアスについて検討する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: It is common in deep learning to train networks on auxiliary tasks with the expectation that the learning will transfer, at least partially, to another task of interest. In this work, we investigate the inductive biases that result from learning auxiliary tasks, either simultaneously (multi-task learning, MTL) or sequentially (pretraining and subsequent finetuning, PT+FT). In the simplified setting of two-layer diagonal linear networks trained with gradient descent, we identify implicit regularization penalties associated with MTL and PT+FT, both of which incentivize feature sharing between tasks and sparsity in learned task-specific features. Notably, our results imply that during finetuning, networks operate in a hybrid of the kernel (or "lazy") regime and the feature learning ("rich") regime identified in prior work. Moreover, PT+FT can exhibit a novel "nested feature learning" behavior not captured by either regime, which biases it to extract a sparse subset of the features learned during pretraining. In ReLU networks, we reproduce all of these qualitative behaviors. We also observe that PT+FT (but not MTL) is biased to learn features that are correlated with (but distinct from) those needed for the auxiliary task, while MTL is biased toward using identical features for both tasks. As a result, we find that in realistic settings, MTL generalizes better when comparatively little data is available for the task of interest, while PT+FT outperforms it with more data available. We show that our findings hold qualitatively for a deep architecture trained on image classification tasks. Our characterization of the nested feature learning regime also motivates a modification to PT+FT that we find empirically improves performance. Overall, our results shed light on the impact of auxiliary task learning and suggest ways to leverage it more effectively.
Abstract（参考訳）: ディープラーニングでは、学習が少なくとも部分的に別の関心のあるタスクに移ることを期待して、補助的なタスクでネットワークを訓練することが一般的である。本研究では,複数タスク(マルチタスク学習,MTL)と逐次(事前学習,その後の微調整,PT+FT)の同時学習から生じる帰納的バイアスについて検討する。勾配降下を訓練した2層対角線ネットワークの簡易な設定において, MTL と PT+FT に関連する暗黙正則化のペナルティを同定した。我々の結果は、微調整の間、ネットワークがカーネル(または「怠け者」)と機能学習(リッチ」)のハイブリッドで動作していることを示唆している。さらにPT+FTは、どちらのレジームも捉えない、新しい「ネストされた特徴学習」行動を示し、事前訓練中に学習した特徴のスパースサブセットを抽出するバイアスを与える。 ReLUネットワークでは、これらの定性的行動をすべて再現する。また、PT+FT(MTLではない)は補助作業に必要な機能と相関する(ただし異なる)特徴を学習するために偏りがあるのに対し、MTLは両方のタスクに同一の機能を使用することに偏りがある。その結果、現実的な設定では、比較的少ないデータが興味のあるタスクで利用できる場合、MPLはより一般化され、PT+FTはより多くのデータでより優れることがわかった。本稿では,画像分類タスクを訓練した深層アーキテクチャについて,定性的に考察する。ネスト型特徴学習システムの特徴として,PT+FTに改良を加えた結果,性能が向上した。全体として、我々の結果は、補助的なタスク学習の影響に光を当て、より効果的に活用する方法を提案する。

関連論文リスト

Visualising Feature Learning in Deep Neural Networks by Diagonalizing the Forward Feature Map [4.776836972093627]
本稿では,ディープニューラルネットワーク(DNN)を分解して特徴学習を分析する手法を提案する。 DNNはクラス数に等しい多くの固有関数に支配される最小特徴(MF)体制に収束する。我々は、神経崩壊現象を、回帰のようなより広範なタスクに拡張できるカーネルイメージに再キャストする。
論文参考訳（メタデータ） (2024-10-05T18:53:48Z)
Provable Multi-Task Representation Learning by Two-Layer ReLU Neural Networks [69.38572074372392]
本稿では,複数タスクにおける非線形モデルを用いたトレーニング中に特徴学習が発生することを示す最初の結果を示す。私たちのキーとなる洞察は、マルチタスク事前トレーニングは、通常タスク間で同じラベルを持つポイントを整列する表現を好む擬似コントラスト的損失を誘導するということです。
論文参考訳（メタデータ） (2023-07-13T16:39:08Z)
Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。よりスムーズな関数との補間により、より一般化できることを示す。
論文参考訳（メタデータ） (2023-05-30T19:37:44Z)
ReLU Neural Networks with Linear Layers are Biased Towards Single- and Multi-Index Models [9.96121040675476]
この原稿は、2層以上の深さのニューラルネットワークによって学習された関数の性質が予測にどのように影響するかを考察している。我々のフレームワークは、すべて同じキャパシティを持つが表現コストが異なる、様々な深さのネットワーク群を考慮に入れている。
論文参考訳（メタデータ） (2023-05-24T22:10:12Z)
Neural networks trained with SGD learn distributions of increasing complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。その後、トレーニング中にのみ高次の統計を利用する。本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文参考訳（メタデータ） (2022-11-21T15:27:22Z)
Learning an Invertible Output Mapping Can Mitigate Simplicity Bias in Neural Networks [66.76034024335833]
バックボーンによって多様・複雑な特徴が学習される理由を考察し、その脆さは、主に最も単純な特徴に依存する線形分類ヘッドによるものである。本稿では,学習した特徴がログから復元可能であることを保証するために,特徴再構成正則化器(FRR)を提案する。我々は、最近導入された極端分布シフトを持つ半合成データセットにおいて、OOD精度が最大15%向上することを示した。
論文参考訳（メタデータ） (2022-10-04T04:01:15Z)
Plateau in Monotonic Linear Interpolation -- A "Biased" View of Loss Landscape for Deep Networks [18.71055320062469]
モノトニックリニア(英: Monotonic linear、MLI)は、ニューラルネットワークのトレーニングでよく見られる現象である。 MLI特性は最適化問題の硬さと必ずしも関係がないことを示す。特に、重みと偏りを線形に補間することは、最終的な出力に非常に異なる影響をもたらすことを示す。
論文参考訳（メタデータ） (2022-10-03T15:33:29Z)
Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文参考訳（メタデータ） (2022-09-30T15:15:05Z)
Side-Tuning: A Baseline for Network Adaptation via Additive Side Networks [95.51368472949308]
適応は、トレーニングデータが少ない場合や、ネットワークのプリエンプションをエンコードしたい場合などに有効である。本稿では,サイドチューニングという簡単な方法を提案する。
論文参考訳（メタデータ） (2019-12-31T18:52:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。