論文の概要: Implicit regularization of multi-task learning and finetuning in
overparameterized neural networks
- arxiv url: http://arxiv.org/abs/2310.02396v2
- Date: Thu, 7 Mar 2024 17:47:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 17:59:35.377774
- Title: Implicit regularization of multi-task learning and finetuning in
overparameterized neural networks
- Title(参考訳): 過パラメータニューラルネットワークにおけるマルチタスク学習と微調整の暗黙正則化
- Authors: Jack W. Lindsey and Samuel Lippl
- Abstract要約: 複数タスクの同時学習(マルチタスク学習、MTL)または逐次学習(事前学習、その後の微調整、PT+FT)による帰納的バイアスについて検討する。
PT+FTは, いずれの体制にも適用されず, 事前訓練中に学習した特徴の少ない部分集合を抽出する, 新たな「ネストされた特徴選択」行動を示すことができることを示す。
その結果、補助的なタスク学習の影響に光を当て、より効果的に活用する方法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we investigate the inductive biases that result from learning
multiple tasks, either simultaneously (multi-task learning, MTL) or
sequentially (pretraining and subsequent finetuning, PT+FT). In the simplified
setting of two-layer diagonal linear networks trained with gradient descent, we
apply prior theoretical results to describe novel implicit regularization
penalties associated with MTL and PT+FT, both of which incentivize feature
sharing between tasks and sparsity in learned task-specific features. Notably,
these results imply that during finetuning, networks operate in a hybrid of the
kernel (or "lazy") regime and the feature learning ("rich") regime identified
in prior work. Moreover, we show that PT+FT can exhibit a novel "nested feature
selection" behavior not captured by either regime, which biases it to extract a
sparse subset of the features learned during pretraining. In ReLU networks, we
reproduce all of these qualitative behaviors empirically, in particular
verifying that analogues of the sparsity biases predicted by the linear theory
hold in the nonlinear case. Our findings hold qualitatively for a deep
architecture trained on image classification tasks, and our characterization of
the nested feature selection regime motivates a modification to PT+FT that we
find empirically improves performance. We also observe that PT+FT (but not MTL)
is biased to learn features that are correlated with (but distinct from) those
needed for the auxiliary task, while MTL is biased toward using identical
features for both tasks, which can lead to a tradeoff in performance as a
function of the number of finetuning samples. Our results shed light on the
impact of auxiliary task learning and suggest ways to leverage it more
effectively.
- Abstract(参考訳): 本研究では,複数タスクの同時学習(マルチタスク学習,MTL)や逐次学習(事前学習,その後の微調整,PT+FT)による帰納的バイアスについて検討する。
勾配降下法で訓練された2層対角線ネットワークの簡易な設定において,MTL と PT+FT に付随する新しい暗黙正則化法則を記述するために,従来の理論的結果を適用した。
これらの結果は、微調整の間、ネットワークが前処理で特定されたカーネル(または「怠け者」)と特徴学習(リッチ」)のハイブリッドで動作することを示している。
さらに, PT+FTは, どちらのレジームにも捕えられず, 事前学習中に学習した特徴のスパースサブセットを抽出する, 新たな「ネストされた特徴選択」行動を示すことを示す。
ReLUネットワークでは、これらの定性的挙動を経験的に再現し、特に非線形の場合において線形理論によって予測される空間バイアスの類似性を検証する。
画像分類タスクを訓練した深層アーキテクチャを定性的に評価し,ネストした特徴選択機構の特性はPT+FTの修正を動機付け,性能を実証的に改善すると考えられる。
また、PT+FT(MTLではない)は補助作業に必要な機能と相関する(ただし、異なる)特徴を学習するために偏りがあるのに対し、MPLは両方のタスクで同一の機能を使用することに偏りがあり、微調整サンプル数の関数として性能のトレードオフにつながる可能性がある。
その結果、補助タスク学習の効果に光を当て、より効果的に活用する方法を提案しました。
関連論文リスト
- Layer-wise Feedback Propagation [53.00944147633484]
本稿では、ニューラルネットワークのような予測器のための新しいトレーニング手法であるLFP(Layer-wise Feedback Propagation)を提案する。
LFPは、与えられたタスクの解決に対するそれぞれの貢献に基づいて、個々のコネクションに報酬を割り当てる。
各種モデルやデータセットの勾配降下に匹敵する性能を達成できることの有効性を実証する。
論文 参考訳(メタデータ) (2023-08-23T10:48:28Z) - Mitigating Task Interference in Multi-Task Learning via Explicit Task
Routing with Non-Learnable Primitives [19.90788777476128]
マルチタスク学習(MTL)は、タスク間の共有情報を活用することで、複数のタスクを達成するための単一のモデルを学ぶことを目指している。
既存のMLLモデルはタスク間の負の干渉に悩まされていることが知られている。
本研究では,非学習可能なプリミティブと明示的なタスクルーティングの相乗的組み合わせによるタスク干渉を軽減するためのETR-NLPを提案する。
論文 参考訳(メタデータ) (2023-08-03T22:34:16Z) - Provable Multi-Task Representation Learning by Two-Layer ReLU Neural
Networks [74.4401897731544]
本稿では,複数タスクにおける非線形モデルを用いたトレーニング中に特徴学習が発生することを示す最初の結果を示す。
私たちのキーとなる洞察は、マルチタスク事前トレーニングは、通常タスク間で同じラベルを持つポイントを整列する表現を好む擬似コントラスト的損失を誘導するということです。
論文 参考訳(メタデータ) (2023-07-13T16:39:08Z) - ENN: A Neural Network with DCT Adaptive Activation Functions [2.2713084727838115]
離散コサイン変換(DCT)を用いて非線形活性化関数をモデル化する新しいモデルであるExpressive Neural Network(ENN)を提案する。
このパラメータ化は、トレーニング可能なパラメータの数を低く保ち、勾配ベースのスキームに適合し、異なる学習タスクに適応する。
ENNのパフォーマンスは、いくつかのシナリオにおいて40%以上の精度のギャップを提供する、アートベンチマークの状態を上回ります。
論文 参考訳(メタデータ) (2023-07-02T21:46:30Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Regularization Through Simultaneous Learning: A Case Study on Plant
Classification [0.0]
本稿では,トランスファーラーニングとマルチタスクラーニングの原則に基づく正規化アプローチである同時学習を紹介する。
我々は、ターゲットデータセットであるUFOP-HVDの補助データセットを活用し、カスタマイズされた損失関数でガイドされた同時分類を容易にする。
興味深いことに,本手法は正規化のないモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-22T19:44:57Z) - Analysis of Catastrophic Forgetting for Random Orthogonal Transformation
Tasks in the Overparameterized Regime [9.184987303791292]
可変MNIST画像分類タスクでは,バニラ勾配降下により訓練された多層パーセプトロンの性能を向上させることができることを示す。
定性的に類似した2タスク線形回帰問題を研究することによって、この効果を理論的に説明する。
モデルが追加の正規化なしで連続的に2つのタスクで訓練された場合、最初のタスクのリスクゲインは小さくなることを示す。
論文 参考訳(メタデータ) (2022-06-01T18:04:33Z) - FedGradNorm: Personalized Federated Gradient-Normalized Multi-Task
Learning [50.756991828015316]
マルチタスク学習(MTL)は、1つの共有ネットワークで複数のタスクを同時に学習する新しいフレームワークである。
本稿では,異なるタスク間の学習速度のバランスをとるために,動的重み付け法を用いてノルムの正規化を行うFedGradNormを提案する。
論文 参考訳(メタデータ) (2022-03-24T17:43:12Z) - Combining Modular Skills in Multitask Learning [149.8001096811708]
モジュラー設計は、ニューラルネットワークが様々な知識の面をアンタングルして再結合し、新しいタスクにより系統的に一般化することを奨励する。
この研究では、各タスクは(潜在的に小さな)インベントリから潜在的な離散スキルのサブセットと関連付けられていると仮定する。
ネットワークのモジュラー設計により、強化学習におけるサンプル効率が著しく向上し、教師あり学習における数ショットの一般化が図られる。
論文 参考訳(メタデータ) (2022-02-28T16:07:19Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。