論文の概要: Rethinking Parameter Counting in Deep Models: Effective Dimensionality
Revisited
- arxiv url: http://arxiv.org/abs/2003.02139v2
- Date: Mon, 25 May 2020 17:43:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 12:23:27.830635
- Title: Rethinking Parameter Counting in Deep Models: Effective Dimensionality
Revisited
- Title(参考訳): 深部モデルにおけるパラメータ数の再考:有効次元性の再考
- Authors: Wesley J. Maddox, Gregory Benton, Andrew Gordon Wilson
- Abstract要約: ニューラルネットワークは、パラメータカウントを複雑性のプロキシとして用いる際に、謎の一般化特性を持つことを示す。
これらの特性の多くは、データによって決定されるパラメータ空間の次元を測定する実効次元のレンズを通して見る際に理解可能であることを示す。
- 参考スコア(独自算出の注目度): 36.712632126776285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural networks appear to have mysterious generalization properties when
using parameter counting as a proxy for complexity. Indeed, neural networks
often have many more parameters than there are data points, yet still provide
good generalization performance. Moreover, when we measure generalization as a
function of parameters, we see double descent behaviour, where the test error
decreases, increases, and then again decreases. We show that many of these
properties become understandable when viewed through the lens of effective
dimensionality, which measures the dimensionality of the parameter space
determined by the data. We relate effective dimensionality to posterior
contraction in Bayesian deep learning, model selection, width-depth tradeoffs,
double descent, and functional diversity in loss surfaces, leading to a richer
understanding of the interplay between parameters and functions in deep models.
We also show that effective dimensionality compares favourably to alternative
norm- and flatness- based generalization measures.
- Abstract(参考訳): ニューラルネットワークは、パラメータカウントを複雑性のプロキシとして使用すると、謎の一般化特性を持つように見える。
実際、ニューラルネットワークはデータポイントよりも多くのパラメータを持つことが多いが、優れた一般化性能を提供する。
さらに、パラメータの関数としての一般化を測定すると、テストエラーが減少し、増加し、そして再び減少する二重降下挙動が見られます。
これらの性質の多くは、データによって決定されるパラメータ空間の次元を測定する効果的な次元のレンズを通して見ることで理解できる。
ベイジアン深層学習,モデル選択,幅深度トレードオフ,二重降下,損失面の機能的多様性に有効な次元性が関係し,深層モデルにおけるパラメータと関数の相互作用の理解を深めた。
また、有効次元性は代替ノルムおよび平坦度に基づく一般化尺度と好適に比較できることを示した。
関連論文リスト
- Geometry-induced Implicit Regularization in Deep ReLU Neural Networks [0.0]
暗黙の正則化現象は、まだよく理解されていないが、最適化中に起こる。
パラメータの異なる出力集合の幾何について検討する。
バッチ関数次元は隠蔽層内の活性化パターンによってほぼ確実に決定されることを示す。
論文 参考訳(メタデータ) (2024-02-13T07:49:57Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - RENs: Relevance Encoding Networks [0.0]
本稿では,遅延空間に先行する自動相対性決定(ARD)を用いて,データ固有のボトルネック次元を学習する新しい確率的VOEベースのフレームワークであるrelevance encoding network (RENs)を提案する。
提案モデルは,サンプルの表現や生成品質を損なうことなく,関連性のあるボトルネック次元を学習することを示す。
論文 参考訳(メタデータ) (2022-05-25T21:53:48Z) - Post-mortem on a deep learning contest: a Simpson's paradox and the
complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。
メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。
本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文 参考訳(メタデータ) (2021-06-01T19:19:49Z) - Intrinsic Dimensionality Explains the Effectiveness of Language Model
Fine-Tuning [52.624194343095304]
我々は、内在次元のレンズを通して微調整を分析することは、経験的および理論的直観をもたらすと論じる。
実験により、一般的な事前学習モデルは本質的な次元が極めて低いことを示す。
論文 参考訳(メタデータ) (2020-12-22T07:42:30Z) - Deep Dimension Reduction for Supervised Representation Learning [51.10448064423656]
本研究は,本質的な特徴を持つ学習表現の次元削減手法を提案する。
提案手法は, 十分次元還元法の非パラメトリック一般化である。
推定された深度非パラメトリック表現は、その余剰リスクが0に収束するという意味で一貫したものであることを示す。
論文 参考訳(メタデータ) (2020-06-10T14:47:43Z) - Beyond Dropout: Feature Map Distortion to Regularize Deep Neural
Networks [107.77595511218429]
本稿では,ディープニューラルネットワークの中間層に関連する実験的なRademacher複雑性について検討する。
上記の問題に対処するための特徴歪み法(Disout)を提案する。
より高い試験性能を有するディープニューラルネットワークを作製するための特徴写像歪みの優位性を解析し、実証した。
論文 参考訳(メタデータ) (2020-02-23T13:59:13Z) - A Geometric Modeling of Occam's Razor in Deep Learning [8.007631014276896]
ディープニューラルネットワーク(DNN)は、非常に高次元のパラメータ空間の恩恵を受ける。
彼らの巨大なパラメータの複雑さと実践上の素晴らしいパフォーマンスは、より興味深く、説明できないものです。
本稿では,この現象を研究するための幾何学的フレーバー付き情報理論手法を提案する。
論文 参考訳(メタデータ) (2019-05-27T07:57:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。