論文の概要: Geometry-induced Implicit Regularization in Deep ReLU Neural Networks
- arxiv url: http://arxiv.org/abs/2402.08269v1
- Date: Tue, 13 Feb 2024 07:49:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 16:03:48.488304
- Title: Geometry-induced Implicit Regularization in Deep ReLU Neural Networks
- Title(参考訳): 深部ReLUニューラルネットワークにおける幾何誘起インシシタン規則化
- Authors: Joachim Bona-Pellissier (IMT), Fran \c{c}ois Malgouyres (IMT), Fran
\c{c}ois Bachoc (IMT)
- Abstract要約: 暗黙の正則化現象は、まだよく理解されていないが、最適化中に起こる。
パラメータの異なる出力集合の幾何について検討する。
バッチ関数次元は隠蔽層内の活性化パターンによってほぼ確実に決定されることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is well known that neural networks with many more parameters than training
examples do not overfit. Implicit regularization phenomena, which are still not
well understood, occur during optimization and 'good' networks are favored.
Thus the number of parameters is not an adequate measure of complexity if we do
not consider all possible networks but only the 'good' ones. To better
understand which networks are favored during optimization, we study the
geometry of the output set as parameters vary. When the inputs are fixed, we
prove that the dimension of this set changes and that the local dimension,
called batch functional dimension, is almost surely determined by the
activation patterns in the hidden layers. We prove that the batch functional
dimension is invariant to the symmetries of the network parameterization:
neuron permutations and positive rescalings. Empirically, we establish that the
batch functional dimension decreases during optimization. As a consequence,
optimization leads to parameters with low batch functional dimensions. We call
this phenomenon geometry-induced implicit regularization.The batch functional
dimension depends on both the network parameters and inputs. To understand the
impact of the inputs, we study, for fixed parameters, the largest attainable
batch functional dimension when the inputs vary. We prove that this quantity,
called computable full functional dimension, is also invariant to the
symmetries of the network's parameterization, and is determined by the
achievable activation patterns. We also provide a sampling theorem, showing a
fast convergence of the estimation of the computable full functional dimension
for a random input of increasing size. Empirically we find that the computable
full functional dimension remains close to the number of parameters, which is
related to the notion of local identifiability. This differs from the observed
values for the batch functional dimension computed on training inputs and test
inputs. The latter are influenced by geometry-induced implicit regularization.
- Abstract(参考訳): トレーニングサンプルよりも多くのパラメータを持つニューラルネットワークが過剰に適合しないことはよく知られている。
まだよく理解されていない暗黙の正規化現象は最適化中に起こり、「良い」ネットワークが好まれる。
したがって、全ての可能なネットワークを考慮せず、「良い」ネットワークのみを考えると、パラメータの数は複雑さの適切な尺度ではない。
最適化時にどのネットワークが好まれるかをよりよく理解するために,パラメータの異なる出力集合の幾何について検討する。
入力が固定されると、この集合の次元が変化し、バッチ関数次元と呼ばれる局所次元が隠れた層の活性化パターンによってほぼ確実に決定されることを示す。
バッチ関数次元がネットワークパラメータ化の対称性(ニューロンの置換と正の再スケーリング)に不変であることを証明する。
経験的に、バッチ関数の次元は最適化中に減少する。
その結果、最適化は低バッチ機能次元のパラメータにつながる。
我々はこの現象を幾何学的に誘発される暗黙の正規化と呼び、バッチ関数次元はネットワークパラメータと入力の両方に依存する。
入力の影響を理解するため、固定パラメータに対して、入力が変化する場合に最も到達可能なバッチ機能次元について検討する。
計算可能全関数次元と呼ばれるこの量は、ネットワークのパラメータ化の対称性に不変であり、達成可能な活性化パターンによって決定されることを示す。
また,計算可能な完全汎関数次元の推定の高速収束を,増大する大きさのランダム入力に対して示すサンプリング定理を提案する。
経験的に、計算可能な完全汎関数次元は、局所的識別可能性の概念と関連するパラメータの数に近いままである。
これは、トレーニング入力とテスト入力で計算されたバッチ機能次元の観測値とは異なる。
後者は幾何学による暗黙の正則化の影響を受けている。
関連論文リスト
- The Empirical Impact of Neural Parameter Symmetries, or Lack Thereof [50.49582712378289]
ニューラル・ネットワーク・アーキテクチャの導入により,ニューラル・パラメータ・対称性の影響について検討する。
我々は,パラメータ空間対称性を低減するために,標準的なニューラルネットワークを改良する2つの手法を開発した。
実験により,パラメータ対称性の経験的影響に関する興味深い観察がいくつか示された。
論文 参考訳(メタデータ) (2024-05-30T16:32:31Z) - Nonparametric Classification on Low Dimensional Manifolds using
Overparameterized Convolutional Residual Networks [82.03459331544737]
非パラメトリック分類の観点から重量減衰を訓練したConvResNeXtsの性能について検討した。
我々の分析は、ConvResNeXtsにおいて無限に多くのビルディングブロックを許容し、重み減衰がこれらのブロックに空間性を暗黙的に強制することを示す。
論文 参考訳(メタデータ) (2023-07-04T11:08:03Z) - The Implicit Bias of Minima Stability in Multivariate Shallow ReLU
Networks [53.95175206863992]
本研究では,2次損失を持つ1層多変量ReLUネットワークをトレーニングする際に,勾配勾配勾配が収束する解のタイプについて検討する。
我々は、浅いReLUネットワークが普遍近似器であるにもかかわらず、安定した浅層ネットワークは存在しないことを証明した。
論文 参考訳(メタデータ) (2023-06-30T09:17:39Z) - Any-dimensional equivariant neural networks [1.4469725791865984]
従来の教師付き学習は、関数を一定次元の入出力ペアの集合に適合させることで未知のマッピングを学習することを目的としている。
我々は、代数トポロジで新たに発見された現象である表現安定性を利用して、一定次元のデータでトレーニングできる同変ニューラルネットワークを定義する。
論文 参考訳(メタデータ) (2023-06-10T00:55:38Z) - Hidden symmetries of ReLU networks [17.332539115959708]
一部のネットワークでは、ある層内のニューロンの置換と、ニューロンにおけるパラメータの正のスケーリングが唯一の対称性であり、他のネットワークでは、追加の隠れ対称性が認められる。
本研究では, 層が入力よりも狭いネットワークアーキテクチャでは, 隠れ対称性を持たないパラメータ設定が存在することを証明した。
論文 参考訳(メタデータ) (2023-06-09T18:07:06Z) - Functional dimension of feedforward ReLU neural networks [0.0]
関数次元はReLUニューラルネットワーク関数のパラメータ空間で不均一であることを示す。
また、パラメータ空間から関数空間への実化写像の商空間とファイバーについても検討する。
論文 参考訳(メタデータ) (2022-09-08T21:30:16Z) - A Functional Perspective on Learning Symmetric Functions with Neural
Networks [48.80300074254758]
本研究では,測定値に基づいて定義されたニューラルネットワークの学習と表現について検討する。
正規化の異なる選択の下で近似と一般化境界を確立する。
得られたモデルは効率よく学習でき、入力サイズにまたがる一般化保証を享受できる。
論文 参考訳(メタデータ) (2020-08-16T16:34:33Z) - Rethinking Parameter Counting in Deep Models: Effective Dimensionality
Revisited [36.712632126776285]
ニューラルネットワークは、パラメータカウントを複雑性のプロキシとして用いる際に、謎の一般化特性を持つことを示す。
これらの特性の多くは、データによって決定されるパラメータ空間の次元を測定する実効次元のレンズを通して見る際に理解可能であることを示す。
論文 参考訳(メタデータ) (2020-03-04T15:39:27Z) - Convex Geometry and Duality of Over-parameterized Neural Networks [70.15611146583068]
有限幅2層ReLUネットワークの解析のための凸解析手法を開発した。
正規化学習問題に対する最適解が凸集合の極点として特徴づけられることを示す。
高次元では、トレーニング問題は無限に多くの制約を持つ有限次元凸問題としてキャストできることが示される。
論文 参考訳(メタデータ) (2020-02-25T23:05:33Z) - Supervised Learning for Non-Sequential Data: A Canonical Polyadic
Decomposition Approach [85.12934750565971]
特徴相互作用の効率的なモデリングは、非順序的タスクに対する教師あり学習の基盤となる。
この問題を緩和するため、モデルパラメータをテンソルとして暗黙的に表現することが提案されている。
表現性を向上するため,任意の高次元特徴ベクトルに特徴写像を適用できるようにフレームワークを一般化する。
論文 参考訳(メタデータ) (2020-01-27T22:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。