Fugu-MT 論文翻訳(概要): On the optimization and generalization of overparameterized implicit neural networks

論文の概要: On the optimization and generalization of overparameterized implicit neural networks

arxiv url: http://arxiv.org/abs/2209.15562v1
Date: Fri, 30 Sep 2022 16:19:46 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-03 14:49:17.021407
Title: On the optimization and generalization of overparameterized implicit neural networks
Title（参考訳）: 過パラメータ化暗黙ニューラルネットワークの最適化と一般化について
Authors: Tianxiang Gao, Hongyang Gao
Abstract要約: 機械学習コミュニティでは、暗黙のニューラルネットワークがますます魅力的になっている。暗黙の層のみを訓練しても,グローバル収束が保証されることを示す。本稿では,暗黙的ニューラルネットワークの一般化誤差について検討する。
参考スコア（独自算出の注目度）: 25.237054775800164
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Implicit neural networks have become increasingly attractive in the machine learning community since they can achieve competitive performance but use much less computational resources. Recently, a line of theoretical works established the global convergences for first-order methods such as gradient descent if the implicit networks are over-parameterized. However, as they train all layers together, their analyses are equivalent to only studying the evolution of the output layer. It is unclear how the implicit layer contributes to the training. Thus, in this paper, we restrict ourselves to only training the implicit layer. We show that global convergence is guaranteed, even if only the implicit layer is trained. On the other hand, the theoretical understanding of when and how the training performance of an implicit neural network can be generalized to unseen data is still under-explored. Although this problem has been studied in standard feed-forward networks, the case of implicit neural networks is still intriguing since implicit networks theoretically have infinitely many layers. Therefore, this paper investigates the generalization error for implicit neural networks. Specifically, we study the generalization of an implicit network activated by the ReLU function over random initialization. We provide a generalization bound that is initialization sensitive. As a result, we show that gradient flow with proper random initialization can train a sufficient over-parameterized implicit network to achieve arbitrarily small generalization errors.
Abstract（参考訳）: 命令型ニューラルネットワークは、競争力のあるパフォーマンスを達成できるが、計算リソースをはるかに少なくできるため、機械学習コミュニティではますます魅力的になっている。近年、暗黙のネットワークが過パラメータ化されている場合、勾配降下のような一階法のグローバル収束が確立されている。しかし、全ての層を一緒に訓練すると、その分析は出力層の進化を研究するのと同等である。暗黙の層がトレーニングにどのように寄与するかは不明だ。そこで本論文では,暗黙の層のみをトレーニングすることに限定する。暗黙の層のみを訓練しても,グローバル収束が保証されることを示す。一方で、暗黙のニューラルネットワークのトレーニング性能を非知覚データに一般化する方法に関する理論的理解は、まだ未検討のままである。この問題は標準フィードフォワードネットワークで研究されているが、暗黙のニューラルネットワークは理論的には無限に多くの層を持つため、いまだに興味深い。そこで本研究では,暗黙的ニューラルネットワークの一般化誤差について検討する。具体的には、ランダム初期化よりもReLU関数によって活性化される暗黙ネットワークの一般化について検討する。初期化に敏感な一般化境界を提供する。その結果、適切なランダム初期化を伴う勾配流は、任意に小さい一般化誤差を達成するために十分な過剰パラメータの暗黙的ネットワークを訓練できることが示される。

関連論文リスト

Algorithm Development in Neural Networks: Insights from the Streaming Parity Task [8.188549368578704]
ストリーミングパリティタスクでトレーニングされたニューラルネットワークの学習ダイナミクスについて検討する。有限学習経験が十分であれば、RNNは完全無限一般化への位相遷移を示すことを示す。その結果、ニューラルネットワークが有限のトレーニング経験から無限に一般化できるメカニズムが明らかにされた。
論文参考訳（メタデータ） (2025-07-14T04:07:43Z)
Generalization performance of narrow one-hidden layer networks in the teacher-student setting [40.69556943879117]
我々は、狭いネットワーク、すなわち多数の隠れユニットを持つネットワークに対して、入力次元よりもはるかに小さい一般理論を開発する。我々の理論は、回帰や分類タスクで訓練されたニューラルネットワークの一般化誤差を正確に予測する。
論文参考訳（メタデータ） (2025-07-01T10:18:20Z)
Theoretical Characterization of How Neural Network Pruning Affects its Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文参考訳（メタデータ） (2023-01-01T03:10:45Z)
Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文参考訳（メタデータ） (2023-01-01T02:11:39Z)
Neural networks trained with SGD learn distributions of increasing complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。その後、トレーニング中にのみ高次の統計を利用する。本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文参考訳（メタデータ） (2022-11-21T15:27:22Z)
How does unlabeled data improve generalization in self-training? A one-hidden-layer theoretical analysis [93.37576644429578]
この研究は、既知の反復的自己学習パラダイムに関する最初の理論的分析を確立する。トレーニング収束と一般化能力の両面で、ラベルなしデータの利点を実証する。また、浅部ニューラルネットワークから深部ニューラルネットワークへの実験は、我々の確立した自己学習に関する理論的知見の正しさを正当化するものである。
論文参考訳（メタデータ） (2022-01-21T02:16:52Z)
Critical Initialization of Wide and Deep Neural Networks through Partial Jacobians: General Theory and Applications [6.579523168465526]
ネットワークの固有ヤコビアン(enmphpartial Jacobians)を導入し、層$l$におけるプレアクティベーションの微分として定義し、層$l_0leq l$におけるプレアクティベーションについて述べる。我々は,部分ジャコビアンのノルムに対する再帰関係を導出し,これらの関係を利用して,LayerNormおよび/または残留接続を用いたディープ・完全連結ニューラルネットワークの臨界度を解析する。
論文参考訳（メタデータ） (2021-11-23T20:31:42Z)
Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity on Pruned Neural Networks [79.74580058178594]
目的関数の幾何学的構造を解析することにより、刈り取られたニューラルネットワークを訓練する性能を解析する。本稿では,ニューラルネットワークモデルがプルーニングされるにつれて,一般化が保証された望ましいモデル近傍の凸領域が大きくなることを示す。
論文参考訳（メタデータ） (2021-10-12T01:11:07Z)
A global convergence theory for deep ReLU implicit networks via over-parameterization [26.19122384935622]
暗黙の深層学習は近年注目を集めている。本稿では,Rectified Linear Unit (ReLU) 活性化暗黙的ニューラルネットワークの勾配流れを解析する。
論文参考訳（メタデータ） (2021-10-11T23:22:50Z)
Redundant representations help generalization in wide neural networks [71.38860635025907]
様々な最先端の畳み込みニューラルネットワークの最後に隠された層表現について検討する。最後に隠された表現が十分に広ければ、そのニューロンは同一の情報を持つグループに分裂し、統計的に独立したノイズによってのみ異なる傾向にある。
論文参考訳（メタデータ） (2021-06-07T10:18:54Z)
Compressive Sensing and Neural Networks from a Statistical Learning Perspective [4.561032960211816]
線形測定の少ないスパース再構成に適したニューラルネットワークのクラスに対する一般化誤差解析を提案する。現実的な条件下では、一般化誤差は層数で対数的にしかスケールせず、測定数ではほとんど線形である。
論文参考訳（メタデータ） (2020-10-29T15:05:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。