論文の概要: Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning
- arxiv url: http://arxiv.org/abs/2304.04312v1
- Date: Sun, 9 Apr 2023 20:36:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 16:24:20.234301
- Title: Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning
- Title(参考訳): 過剰適応型メタラーニングの一般化性能に関する理論的評価
- Authors: Peizhong Ju, Yingbin Liang, Ness B. Shroff
- Abstract要約: 本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
- 参考スコア(独自算出の注目度): 70.52689048213398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Meta-learning has arisen as a successful method for improving training
performance by training over many similar tasks, especially with deep neural
networks (DNNs). However, the theoretical understanding of when and why
overparameterized models such as DNNs can generalize well in meta-learning is
still limited. As an initial step towards addressing this challenge, this paper
studies the generalization performance of overfitted meta-learning under a
linear regression model with Gaussian features. In contrast to a few recent
studies along the same line, our framework allows the number of model
parameters to be arbitrarily larger than the number of features in the ground
truth signal, and hence naturally captures the overparameterized regime in
practical deep meta-learning. We show that the overfitted min $\ell_2$-norm
solution of model-agnostic meta-learning (MAML) can be beneficial, which is
similar to the recent remarkable findings on ``benign overfitting'' and
``double descent'' phenomenon in the classical (single-task) linear regression.
However, due to the uniqueness of meta-learning such as task-specific gradient
descent inner training and the diversity/fluctuation of the ground-truth
signals among training tasks, we find new and interesting properties that do
not exist in single-task linear regression. We first provide a high-probability
upper bound (under reasonable tightness) on the generalization error, where
certain terms decrease when the number of features increases. Our analysis
suggests that benign overfitting is more significant and easier to observe when
the noise and the diversity/fluctuation of the ground truth of each training
task are large. Under this circumstance, we show that the overfitted min
$\ell_2$-norm solution can achieve an even lower generalization error than the
underparameterized solution.
- Abstract(参考訳): メタラーニングは、多くの類似したタスク、特にディープニューラルネットワーク(DNN)をトレーニングすることで、トレーニングパフォーマンスを向上させる方法として成功している。
しかし、DNNのような過パラメータ化モデルがメタラーニングにおいてうまく一般化できる時期と理由に関する理論的理解はまだ限られている。
この課題に取り組むための最初のステップとして,ガウス的特徴を持つ線形回帰モデルにおいて,過剰に適合したメタ学習の一般化性能について検討する。
提案手法は,近年のいくつかの研究とは対照的に,基礎的真理信号の特徴量よりもモデルパラメータの数が任意に大きいため,実践的なメタラーニングにおける過度なパラメータ化体制を自然に捉えることができる。
モデル非依存型メタラーニング(MAML)の過剰適合min$\ell_2$-norm解は,古典的(単一タスク)線形回帰現象における'benign overfitting'と'double descend'の最近の顕著な発見と類似している。
しかし,課題特異的勾配降下インナートレーニングのようなメタ学習の独特さと,訓練課題間の接地信号の多様性・変動から,単タスク線形回帰には存在しない新たな興味深い特性を見出した。
まず、一般化誤差に対して高確率上界(妥当な厳密性の下で)を提供し、特徴数が増加すると特定の項が減少する。
本研究は,各訓練タスクの騒音や基礎的真理の多様性・変動が大きい場合に,良性過剰がより重要で容易に観察できることを示す。
この状況下では、過適合のmin$\ell_2$-norm解が、パラメータ下解よりもさらに低い一般化誤差を達成できることが示される。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Transformers are Minimax Optimal Nonparametric In-Context Learners [36.291980654891496]
大規模言語モデルのコンテキスト内学習は、いくつかの実証的な例から新しいタスクを学ぶのに驚くほど効果的な方法であることが証明されている。
我々は,ディープニューラルネットワークと1つの線形アテンション層からなる変圧器の近似および一般化誤差境界を開発する。
十分に訓練されたトランスフォーマーは、文脈における最小推定リスクを達成し、改善できることを示す。
論文 参考訳(メタデータ) (2024-08-22T08:02:10Z) - Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - A Farewell to the Bias-Variance Tradeoff? An Overview of the Theory of
Overparameterized Machine Learning [37.01683478234978]
機械学習(ML)の急速な進歩は、この分野の長年のドグマに挑戦する科学的な疑問を数多く提起している。
最も重要なライドルの1つは、パラメータ化されたモデルの優れた経験的一般化である。
論文 参考訳(メタデータ) (2021-09-06T10:48:40Z) - On the Treatment of Optimization Problems with L1 Penalty Terms via
Multiobjective Continuation [0.0]
本稿では,線形・非線形最適化におけるスパース性の影響を詳細に把握するアルゴリズムを提案する。
本手法は非線形の場合に対する線形回帰問題に対するよく知られたホモトピー法の一般化と見なすことができる。
論文 参考訳(メタデータ) (2020-12-14T13:00:50Z) - Generalization Error of Generalized Linear Models in High Dimensions [25.635225717360466]
任意の非線形性を持つニューラルネットワークを特徴付けるためのフレームワークを提供する。
正規ロジスティック回帰が学習に与える影響を解析する。
また,本モデルでは,特別事例の学習と配布の事例も捉えている。
論文 参考訳(メタデータ) (2020-05-01T02:17:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。