論文の概要: A Farewell to the Bias-Variance Tradeoff? An Overview of the Theory of
Overparameterized Machine Learning
- arxiv url: http://arxiv.org/abs/2109.02355v1
- Date: Mon, 6 Sep 2021 10:48:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-07 16:53:35.135031
- Title: A Farewell to the Bias-Variance Tradeoff? An Overview of the Theory of
Overparameterized Machine Learning
- Title(参考訳): Bias-Varianceのトレードオフへの不満?
過パラメータ機械学習の理論の概要
- Authors: Yehuda Dar, Vidya Muthukumar, Richard G. Baraniuk
- Abstract要約: 機械学習(ML)の急速な進歩は、この分野の長年のドグマに挑戦する科学的な疑問を数多く提起している。
最も重要なライドルの1つは、パラメータ化されたモデルの優れた経験的一般化である。
- 参考スコア(独自算出の注目度): 37.01683478234978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid recent progress in machine learning (ML) has raised a number of
scientific questions that challenge the longstanding dogma of the field. One of
the most important riddles is the good empirical generalization of
overparameterized models. Overparameterized models are excessively complex with
respect to the size of the training dataset, which results in them perfectly
fitting (i.e., interpolating) the training data, which is usually noisy. Such
interpolation of noisy data is traditionally associated with detrimental
overfitting, and yet a wide range of interpolating models -- from simple linear
models to deep neural networks -- have recently been observed to generalize
extremely well on fresh test data. Indeed, the recently discovered double
descent phenomenon has revealed that highly overparameterized models often
improve over the best underparameterized model in test performance.
Understanding learning in this overparameterized regime requires new theory
and foundational empirical studies, even for the simplest case of the linear
model. The underpinnings of this understanding have been laid in very recent
analyses of overparameterized linear regression and related statistical
learning tasks, which resulted in precise analytic characterizations of double
descent. This paper provides a succinct overview of this emerging theory of
overparameterized ML (henceforth abbreviated as TOPML) that explains these
recent findings through a statistical signal processing perspective. We
emphasize the unique aspects that define the TOPML research area as a subfield
of modern ML theory and outline interesting open questions that remain.
- Abstract(参考訳): 機械学習(ML)の急速な進歩は、この分野の長年のドグマに挑戦する多くの科学的疑問を提起している。
最も重要な解法の一つは、過パラメータ化モデルの優れた経験的一般化である。
過パラメータモデルは、トレーニングデータセットのサイズに関して過度に複雑であり、結果として、通常騒がしいトレーニングデータに完全に適合する(つまり補間する)。
このようなノイズデータの補間は伝統的に有害な過剰フィッティングに関連しているが、単純な線形モデルからディープニューラルネットワークまで、幅広い補間モデルによって、新しいテストデータで非常によく一般化することが最近観測されている。
実際、最近発見された二重降下現象は、高いパラメータ化モデルがテスト性能の最良のパラメータ化モデルよりも良くなることを示した。
この超パラメタ化された方法での学習を理解するには、線形モデルの最も単純な場合でさえも、新しい理論と基礎的な実証研究が必要である。
この理解の基礎は、超パラメータ線形回帰と関連する統計学習タスクの非常に最近の分析に置かれており、二重降下の正確な解析的特徴付けが得られた。
本稿では,この過パラメータ化ML(以下TOPMLと略す)の新たな理論を簡潔に概説し,最近の知見を統計的信号処理の観点から解説する。
我々は、TOPML研究領域を現代のML理論のサブフィールドとして定義するユニークな側面を強調し、残る興味深いオープンな疑問を概説する。
関連論文リスト
- SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Understanding Forgetting in Continual Learning with Linear Regression [21.8755265936716]
連続的な学習は、複数のタスクを逐次学習することに焦点を当てており、近年大きな注目を集めている。
線形回帰モデルにおいて, 線形回帰モデルをグラディエント・ディッセンス(Gradient Descent)を用いて, 忘れることの一般的な理論的解析を行う。
十分なデータサイズを考慮に入れれば、集団データ共分散行列の固有値が大きいタスクが後で訓練されるようなシーケンス内のタスクの配置は、忘れが増す傾向にあることを実証する。
論文 参考訳(メタデータ) (2024-05-27T18:33:37Z) - Diffusion posterior sampling for simulation-based inference in tall data settings [53.17563688225137]
シミュレーションベース推論(SBI)は、入力パラメータを所定の観測に関連付ける後部分布を近似することができる。
本研究では、モデルのパラメータをより正確に推測するために、複数の観測値が利用できる、背の高いデータ拡張について考察する。
提案手法を,最近提案した各種数値実験の競合手法と比較し,数値安定性と計算コストの観点から,その優位性を実証した。
論文 参考訳(メタデータ) (2024-04-11T09:23:36Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - Analysis of Interpolating Regression Models and the Double Descent
Phenomenon [3.883460584034765]
ノイズの多いトレーニングデータを補間するモデルは、一般化に乏しいと一般的に推測されている。
得られた最良のモデルは過度にパラメータ化され、テストエラーはモデル順序が増加するにつれて二重降下挙動を示す。
回帰行列の最小特異値の振舞いに基づいて、テスト誤差のピーク位置と二重降下形状をモデル順序の関数として説明する。
論文 参考訳(メタデータ) (2023-04-17T09:44:33Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - Nonparametric Functional Analysis of Generalized Linear Models Under
Nonlinear Constraints [0.0]
本稿では、一般化線形モデルのための新しい非パラメトリック方法論を紹介する。
これは二項回帰の強さとカテゴリーデータに対する潜在変数の定式化の強さを組み合わせたものである。
これは最近公開された方法論のパラメトリックバージョンを拡張し、一般化する。
論文 参考訳(メタデータ) (2021-10-11T04:49:59Z) - Post-mortem on a deep learning contest: a Simpson's paradox and the
complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。
メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。
本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文 参考訳(メタデータ) (2021-06-01T19:19:49Z) - The Predictive Normalized Maximum Likelihood for Over-parameterized
Linear Regression with Norm Constraint: Regret and Double Descent [12.929639356256928]
現代の機械学習モデルは、予測規則の複雑さとその一般化能力の間のトレードオフに従わないことを示す。
最近提案された予測正規化最大値 (pNML) は、個々のデータに対するmin-max後悔解である。
我々は,pNML後悔を合成データ上でのポイントワイド学習可能性尺度として使用し,二重発生現象の予測に成功していることを示す。
論文 参考訳(メタデータ) (2021-02-14T15:49:04Z) - Provable Benefits of Overparameterization in Model Compression: From
Double Descent to Pruning Neural Networks [38.153825455980645]
最近の実証的な証拠は、オーバライゼーションの実践が大きなモデルのトレーニングに利益をもたらすだけでなく、軽量モデルの構築を支援することも示している。
本稿では,モデル刈り込みの高次元ツールセットを理論的に特徴付けることにより,これらの経験的発見に光を当てる。
もっとも情報に富む特徴の位置が分かっていても、我々は大きなモデルに適合し、刈り取るのがよい体制を解析的に特定する。
論文 参考訳(メタデータ) (2020-12-16T05:13:30Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。