Fugu-MT 論文翻訳(概要): Compelling ReLU Network Initialization and Training to Leverage Exponential Scaling with Depth

論文の概要: Compelling ReLU Network Initialization and Training to Leverage Exponential Scaling with Depth

arxiv url: http://arxiv.org/abs/2311.18022v3
Date: Sat, 1 Jun 2024 23:19:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-04 20:11:43.087533
Title: Compelling ReLU Network Initialization and Training to Leverage Exponential Scaling with Depth
Title（参考訳）: ReLUネットワークの初期化と深度による指数スケーリングの活用
Authors: Max Milkert, David Hyde, Forrest Laine,
Abstract要約: ReLUアクティベーションを持つニューラルネットワークは、断片的線形関数の合成と見なすことができる。本稿では,ネットワークに多数のアクティベーションパターンを指数関数的に表示させる新たなトレーニング戦略を提案する。このアプローチにより、無作為な1次元関数よりも数桁精度の高い凸関数の近似を学習することができる。
参考スコア（独自算出の注目度）: 1.7205106391379021
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: A neural network with ReLU activations may be viewed as a composition of piecewise linear functions. For such networks, the number of distinct linear regions expressed over the input domain has the potential to scale exponentially with depth, but it is not expected to do so when the initial parameters are chosen randomly. This poor scaling can necessitate the use of overly large models to approximate even simple functions. To address this issue, we introduce a novel training strategy: we first reparameterize the network weights in a manner that forces the network to display a number of activation patterns exponential in depth. Training first on our derived parameters provides an initial solution that can later be refined by directly updating the underlying model weights. This approach allows us to learn approximations of convex, one-dimensional functions that are several orders of magnitude more accurate than their randomly initialized counterparts.
Abstract（参考訳）: ReLUアクティベーションを持つニューラルネットワークは、断片的線形関数の合成と見なすことができる。このようなネットワークに対して、入力領域上で表現される異なる線形領域の数は、指数関数的に深さにスケールする可能性があるが、初期パラメータがランダムに選択された場合、それは期待できない。この貧弱なスケーリングは、単純な関数を近似するために、過度に大きなモデルを使う必要がある。この問題に対処するために、我々はまずネットワークの重みをパラメータ化し、ネットワークに多くの活性化パターンを指数関数的に表示させる新しいトレーニング戦略を導入する。導出したパラメータをトレーニングすることで、基礎となるモデルの重みを直接更新することで、後から改善できる最初のソリューションを提供します。このアプローチにより、ランダムに初期化された関数よりも数桁精度の高い凸1次元関数の近似を学習することができる。

関連論文リスト

Scalable Bayesian Inference in the Era of Deep Learning: From Gaussian Processes to Deep Neural Networks [0.5827521884806072]
大規模なデータセットでトレーニングされた大規模なニューラルネットワークは、マシンラーニングの主要なパラダイムになっています。この論文は、モデル不確実性を持つニューラルネットワークを装備するためのスケーラブルな手法を開発する。
論文参考訳（メタデータ） (2024-04-29T23:38:58Z)
The Convex Landscape of Neural Networks: Characterizing Global Optima and Stationary Points via Lasso Models [75.33431791218302]
ディープニューラルネットワーク(DNN)モデルは、プログラミング目的に使用される。本稿では,凸型神経回復モデルについて検討する。定常的非次元目的物はすべて,グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。また, 静止非次元目的物はすべて, グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
論文参考訳（メタデータ） (2023-12-19T23:04:56Z)
The Evolution of the Interplay Between Input Distributions and Linear Regions in Networks [20.97553518108504]
ReLUに基づくディープニューラルネットワークにおける線形凸領域の数をカウントする。特に、任意の1次元入力に対して、それを表現するのに必要となるニューロンの数に対して最小限の閾値が存在することを証明している。また、トレーニング中のReLUネットワークにおける決定境界の反復的改善プロセスも明らかにした。
論文参考訳（メタデータ） (2023-10-28T15:04:53Z)
Feature Learning and Generalization in Deep Networks with Orthogonal Weights [1.7956122940209063]
独立なガウス分布からの数値的な重みを持つディープニューラルネットワークは臨界に調整することができる。これらのネットワークは、ネットワークの深さとともに線形に成長する変動を示す。行列のアンサンブルから得られるタン・アクティベーションと重みを持つ長方形のネットワークが、それに対応する事前アクティベーション・揺らぎを持つことを示す。
論文参考訳（メタデータ） (2023-10-11T18:00:02Z)
Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文参考訳（メタデータ） (2023-09-12T13:03:47Z)
ReLU Neural Networks with Linear Layers are Biased Towards Single- and Multi-Index Models [9.96121040675476]
この原稿は、2層以上の深さのニューラルネットワークによって学習された関数の性質が予測にどのように影響するかを考察している。我々のフレームワークは、すべて同じキャパシティを持つが表現コストが異なる、様々な深さのネットワーク群を考慮に入れている。
論文参考訳（メタデータ） (2023-05-24T22:10:12Z)
Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文参考訳（メタデータ） (2023-03-16T21:06:13Z)
Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文参考訳（メタデータ） (2023-02-01T03:18:07Z)
Bayesian Interpolation with Deep Linear Networks [92.1721532941863]
ニューラルネットワークの深さ、幅、データセットサイズがモデル品質にどう影響するかを特徴付けることは、ディープラーニング理論における中心的な問題である。線形ネットワークが無限深度で証明可能な最適予測を行うことを示す。また、データに依存しない先行法により、広い線形ネットワークにおけるベイズ模型の証拠は無限の深さで最大化されることを示す。
論文参考訳（メタデータ） (2022-12-29T20:57:46Z)
Simple initialization and parametrization of sinusoidal networks via their kernel bandwidth [92.25666446274188]
従来の活性化機能を持つネットワークの代替として、活性化を伴う正弦波ニューラルネットワークが提案されている。まず,このような正弦波ニューラルネットワークの簡易版を提案する。次に、ニューラルタンジェントカーネルの観点からこれらのネットワークの挙動を分析し、そのカーネルが調整可能な帯域幅を持つ低域フィルタを近似することを実証する。
論文参考訳（メタデータ） (2022-11-26T07:41:48Z)
Randomly Initialized One-Layer Neural Networks Make Data Linearly Separable [1.2277343096128712]
十分な幅が与えられると、ランダムに1層ニューラルネットワークは2つの集合を2つの線形分離可能な集合に変換することができる。本論文は, 十分な幅が与えられると, ランダムに一層ニューラルネットワークが2つの集合を2つの線形分離可能な集合に変換できることを示す。
論文参考訳（メタデータ） (2022-05-24T01:38:43Z)
On the Effective Number of Linear Regions in Shallow Univariate ReLU Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文参考訳（メタデータ） (2022-05-18T16:57:10Z)
Subquadratic Overparameterization for Shallow Neural Networks [60.721751363271146]
私たちは、標準的なニューラルトレーニング戦略を採用することができる分析フレームワークを提供しています。我々は、Desiderata viaak-Lojasiewicz, smoothness, and standard assumptionsを達成する。
論文参考訳（メタデータ） (2021-11-02T20:24:01Z)
Training Integrable Parameterizations of Deep Neural Networks in the Infinite-Width Limit [0.0]
大きな幅のダイナミクスは実世界のディープネットワークに関する実践的な洞察を導いてきた。 2層ニューラルネットワークでは、トレーニングされたモデルの性質が初期ランダムウェイトの大きさによって根本的に変化することが理解されている。この自明な振る舞いを避けるための様々な手法を提案し、その結果のダイナミクスを詳細に分析する。
論文参考訳（メタデータ） (2021-10-29T07:53:35Z)
Path Regularization: A Convexity and Sparsity Inducing Regularization for Parallel ReLU Networks [75.33431791218302]
本稿では,ディープニューラルネットワークのトレーニング問題について検討し,最適化環境に隠された凸性を明らかにするための解析的アプローチを提案する。我々は、標準のディープ・ネットワークとResNetを特別なケースとして含む、ディープ・パラレルなReLUネットワークアーキテクチャについて検討する。
論文参考訳（メタデータ） (2021-10-18T18:00:36Z)
Activation function design for deep networks: linearity and effective initialisation [10.108857371774977]
先行作業で特定された初期化時の2つの問題を回避する方法を検討する。これらの問題は, 原点付近に十分に大きな線形領域を持つ活性化関数を選択することで, どちらも回避できることを示す。
論文参考訳（メタデータ） (2021-05-17T11:30:46Z)
On the Explicit Role of Initialization on the Convergence and Implicit Bias of Overparametrized Linear Networks [1.0323063834827415]
勾配流下で訓練された単層線形ネットワークの新たな解析法を提案する。正方形損失はその最適値に指数関数的に収束することを示す。我々は、トレーニングされたネットワークとmin-norm解の間の距離に基づいて、新しい非漸近上界を導出する。
論文参考訳（メタデータ） (2021-05-13T15:13:51Z)
On the Implicit Bias of Initialization Shape: Beyond Infinitesimal Mirror Descent [55.96478231566129]
学習モデルを決定する上で,相対スケールが重要な役割を果たすことを示す。勾配流の誘導バイアスを導出する手法を開発した。
論文参考訳（メタデータ） (2021-02-19T07:10:48Z)
Modeling from Features: a Mean-field Framework for Over-parameterized Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文参考訳（メタデータ） (2020-07-03T01:37:16Z)
Measuring Model Complexity of Neural Networks with Curve Activation Functions [100.98319505253797]
本稿では,線形近似ニューラルネットワーク(LANN)を提案する。ニューラルネットワークのトレーニングプロセスを実験的に検討し、オーバーフィッティングを検出する。我々は、$L1$と$L2$正規化がモデルの複雑さの増加を抑制することを発見した。
論文参考訳（メタデータ） (2020-06-16T07:38:06Z)
Fractional moment-preserving initialization schemes for training deep neural networks [1.14219428942199]
ディープニューラルネットワーク(DNN)に対する従来のアプローチは、プレアクティベーションの分散を保存するために、ランダムにネットワーク重みをサンプリングすることである。本稿では,重み付き分布をモデル化することで,重み付けや事前活性化をモデル化できることを示す。数値実験により,本手法が訓練および試験性能を向上させることを示す。
論文参考訳（メタデータ） (2020-05-25T01:10:01Z)
MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文参考訳（メタデータ） (2020-01-28T18:25:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。