論文の概要: Implicit regularization of multi-task learning and finetuning in
overparameterized neural networks
- arxiv url: http://arxiv.org/abs/2310.02396v1
- Date: Tue, 3 Oct 2023 19:39:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 17:51:50.989071
- Title: Implicit regularization of multi-task learning and finetuning in
overparameterized neural networks
- Title(参考訳): 過パラメータニューラルネットワークにおけるマルチタスク学習と微調整の暗黙正則化
- Authors: Jack W. Lindsey and Samuel Lippl
- Abstract要約: ディープラーニングでは、学習が少なくとも部分的には別の関心のあるタスクに移ることを期待して、補助的なタスクでネットワークを訓練することが一般的である。
複数タスク学習(マルチタスク学習, MTL)と逐次学習(事前学習, その後の微調整, PT+FT)の同時学習による帰納的バイアスについて検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is common in deep learning to train networks on auxiliary tasks with the
expectation that the learning will transfer, at least partially, to another
task of interest. In this work, we investigate the inductive biases that result
from learning auxiliary tasks, either simultaneously (multi-task learning, MTL)
or sequentially (pretraining and subsequent finetuning, PT+FT). In the
simplified setting of two-layer diagonal linear networks trained with gradient
descent, we identify implicit regularization penalties associated with MTL and
PT+FT, both of which incentivize feature sharing between tasks and sparsity in
learned task-specific features. Notably, our results imply that during
finetuning, networks operate in a hybrid of the kernel (or "lazy") regime and
the feature learning ("rich") regime identified in prior work. Moreover, PT+FT
can exhibit a novel "nested feature learning" behavior not captured by either
regime, which biases it to extract a sparse subset of the features learned
during pretraining. In ReLU networks, we reproduce all of these qualitative
behaviors. We also observe that PT+FT (but not MTL) is biased to learn features
that are correlated with (but distinct from) those needed for the auxiliary
task, while MTL is biased toward using identical features for both tasks. As a
result, we find that in realistic settings, MTL generalizes better when
comparatively little data is available for the task of interest, while PT+FT
outperforms it with more data available. We show that our findings hold
qualitatively for a deep architecture trained on image classification tasks.
Our characterization of the nested feature learning regime also motivates a
modification to PT+FT that we find empirically improves performance. Overall,
our results shed light on the impact of auxiliary task learning and suggest
ways to leverage it more effectively.
- Abstract(参考訳): ディープラーニングでは、学習が少なくとも部分的に別の関心のあるタスクに移ることを期待して、補助的なタスクでネットワークを訓練することが一般的である。
本研究では,複数タスク(マルチタスク学習,MTL)と逐次(事前学習,その後の微調整,PT+FT)の同時学習から生じる帰納的バイアスについて検討する。
勾配降下を訓練した2層対角線ネットワークの簡易な設定において, MTL と PT+FT に関連する暗黙正則化のペナルティを同定した。
我々の結果は、微調整の間、ネットワークがカーネル(または「怠け者」)と機能学習(リッチ」)のハイブリッドで動作していることを示唆している。
さらにPT+FTは、どちらのレジームも捉えない、新しい「ネストされた特徴学習」行動を示し、事前訓練中に学習した特徴のスパースサブセットを抽出するバイアスを与える。
ReLUネットワークでは、これらの定性的行動をすべて再現する。
また、PT+FT(MTLではない)は補助作業に必要な機能と相関する(ただし異なる)特徴を学習するために偏りがあるのに対し、MTLは両方のタスクに同一の機能を使用することに偏りがある。
その結果、現実的な設定では、比較的少ないデータが興味のあるタスクで利用できる場合、MPLはより一般化され、PT+FTはより多くのデータでより優れることがわかった。
本稿では,画像分類タスクを訓練した深層アーキテクチャについて,定性的に考察する。
ネスト型特徴学習システムの特徴として,PT+FTに改良を加えた結果,性能が向上した。
全体として、我々の結果は、補助的なタスク学習の影響に光を当て、より効果的に活用する方法を提案する。
関連論文リスト
- Layer-wise Feedback Propagation [53.00944147633484]
本稿では、ニューラルネットワークのような予測器のための新しいトレーニング手法であるLFP(Layer-wise Feedback Propagation)を提案する。
LFPは、与えられたタスクの解決に対するそれぞれの貢献に基づいて、個々のコネクションに報酬を割り当てる。
各種モデルやデータセットの勾配降下に匹敵する性能を達成できることの有効性を実証する。
論文 参考訳(メタデータ) (2023-08-23T10:48:28Z) - Mitigating Task Interference in Multi-Task Learning via Explicit Task
Routing with Non-Learnable Primitives [19.90788777476128]
マルチタスク学習(MTL)は、タスク間の共有情報を活用することで、複数のタスクを達成するための単一のモデルを学ぶことを目指している。
既存のMLLモデルはタスク間の負の干渉に悩まされていることが知られている。
本研究では,非学習可能なプリミティブと明示的なタスクルーティングの相乗的組み合わせによるタスク干渉を軽減するためのETR-NLPを提案する。
論文 参考訳(メタデータ) (2023-08-03T22:34:16Z) - Provable Multi-Task Representation Learning by Two-Layer ReLU Neural
Networks [74.4401897731544]
本稿では,複数タスクにおける非線形モデルを用いたトレーニング中に特徴学習が発生することを示す最初の結果を示す。
私たちのキーとなる洞察は、マルチタスク事前トレーニングは、通常タスク間で同じラベルを持つポイントを整列する表現を好む擬似コントラスト的損失を誘導するということです。
論文 参考訳(メタデータ) (2023-07-13T16:39:08Z) - ENN: A Neural Network with DCT Adaptive Activation Functions [2.2713084727838115]
離散コサイン変換(DCT)を用いて非線形活性化関数をモデル化する新しいモデルであるExpressive Neural Network(ENN)を提案する。
このパラメータ化は、トレーニング可能なパラメータの数を低く保ち、勾配ベースのスキームに適合し、異なる学習タスクに適応する。
ENNのパフォーマンスは、いくつかのシナリオにおいて40%以上の精度のギャップを提供する、アートベンチマークの状態を上回ります。
論文 参考訳(メタデータ) (2023-07-02T21:46:30Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Regularization Through Simultaneous Learning: A Case Study on Plant
Classification [0.0]
本稿では,トランスファーラーニングとマルチタスクラーニングの原則に基づく正規化アプローチである同時学習を紹介する。
我々は、ターゲットデータセットであるUFOP-HVDの補助データセットを活用し、カスタマイズされた損失関数でガイドされた同時分類を容易にする。
興味深いことに,本手法は正規化のないモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-22T19:44:57Z) - Analysis of Catastrophic Forgetting for Random Orthogonal Transformation
Tasks in the Overparameterized Regime [9.184987303791292]
可変MNIST画像分類タスクでは,バニラ勾配降下により訓練された多層パーセプトロンの性能を向上させることができることを示す。
定性的に類似した2タスク線形回帰問題を研究することによって、この効果を理論的に説明する。
モデルが追加の正規化なしで連続的に2つのタスクで訓練された場合、最初のタスクのリスクゲインは小さくなることを示す。
論文 参考訳(メタデータ) (2022-06-01T18:04:33Z) - FedGradNorm: Personalized Federated Gradient-Normalized Multi-Task
Learning [50.756991828015316]
マルチタスク学習(MTL)は、1つの共有ネットワークで複数のタスクを同時に学習する新しいフレームワークである。
本稿では,異なるタスク間の学習速度のバランスをとるために,動的重み付け法を用いてノルムの正規化を行うFedGradNormを提案する。
論文 参考訳(メタデータ) (2022-03-24T17:43:12Z) - Combining Modular Skills in Multitask Learning [149.8001096811708]
モジュラー設計は、ニューラルネットワークが様々な知識の面をアンタングルして再結合し、新しいタスクにより系統的に一般化することを奨励する。
この研究では、各タスクは(潜在的に小さな)インベントリから潜在的な離散スキルのサブセットと関連付けられていると仮定する。
ネットワークのモジュラー設計により、強化学習におけるサンプル効率が著しく向上し、教師あり学習における数ショットの一般化が図られる。
論文 参考訳(メタデータ) (2022-02-28T16:07:19Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。