論文の概要: Singular Value Perturbation and Deep Network Optimization
- arxiv url: http://arxiv.org/abs/2203.03099v1
- Date: Mon, 7 Mar 2022 02:09:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 03:02:11.923048
- Title: Singular Value Perturbation and Deep Network Optimization
- Title(参考訳): 特異値摂動とディープネットワーク最適化
- Authors: Rudolf H. Riedi, Randall Balestriero, Richard G. Baraniuk
- Abstract要約: 我々は,行列摂動に関する新たな理論的結果を開発し,アーキテクチャが深層ネットワークの性能に与える影響について光を当てる。
特に,ディープラーニング実践者が長年経験してきたことを説明する。深層アーキテクチャのパラメータは,他よりも容易に最適化できる。
摂動結果の直接的な応用は、ResNetがConvNetよりも簡単に最適化できる理由を解析的に説明します。
- 参考スコア(独自算出の注目度): 29.204852309828006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We develop new theoretical results on matrix perturbation to shed light on
the impact of architecture on the performance of a deep network. In particular,
we explain analytically what deep learning practitioners have long observed
empirically: the parameters of some deep architectures (e.g., residual
networks, ResNets, and Dense networks, DenseNets) are easier to optimize than
others (e.g., convolutional networks, ConvNets). Building on our earlier work
connecting deep networks with continuous piecewise-affine splines, we develop
an exact local linear representation of a deep network layer for a family of
modern deep networks that includes ConvNets at one end of a spectrum and
ResNets and DenseNets at the other. For regression tasks that optimize the
squared-error loss, we show that the optimization loss surface of a modern deep
network is piecewise quadratic in the parameters, with local shape governed by
the singular values of a matrix that is a function of the local linear
representation. We develop new perturbation results for how the singular values
of matrices of this sort behave as we add a fraction of the identity and
multiply by certain diagonal matrices. A direct application of our perturbation
results explains analytically why a ResNet is easier to optimize than a
ConvNet: thanks to its more stable singular values and smaller condition
number, the local loss surface of a ResNet or DenseNet is less erratic, less
eccentric, and features local minima that are more accommodating to
gradient-based optimization. Our results also shed new light on the impact of
different nonlinear activation functions on a deep network's singular values,
regardless of its architecture.
- Abstract(参考訳): 我々は,行列摂動の新たな理論的結果を開発し,アーキテクチャが深層ネットワークの性能に与える影響を明らかにする。
特に、ディープラーニング実践者が長年経験的に観察してきたものについて分析的に説明する: 深いアーキテクチャ(残留ネットワーク、ResNet、DenseNetsなど)のパラメータは他のもの(畳み込みネットワーク、ConvNetsなど)よりも最適化が容易である。
ディープネットワークと連続的な断片的なアフィンスプラインをつなぐ初期の研究に基づいて、スペクトルの一方の端にコンブネット、他方に再ネットと高密度ネットを含む、現代のディープネットワークのファミリーのためのディープネットワーク層の正確な局所的表現を開発する。
二乗誤差損失を最適化する回帰タスクでは、局所線形表現の関数である行列の特異値によって局所的な形状が支配される、現代のディープネットワークの最適化損失曲面がパラメータの分割二乗であることを示す。
我々は,このような行列の特異な値がどのように振る舞うかを,ある対角行列の個数と乗算を加味して新たな摂動結果を作成する。
より安定した特異値とより少ない条件数のおかげで、ResNet や DenseNet の局所的な損失面は不安定ではなく、偏心性が低く、勾配に基づく最適化に配慮した局所的なミニマが特徴である。
また,異なる非線形活性化関数がディープネットワークの特異値に与える影響について,そのアーキテクチャによらず新たな光を当てた。
関連論文リスト
- Generalization of Scaled Deep ResNets in the Mean-Field Regime [55.77054255101667]
無限深度および広帯域ニューラルネットワークの限界におけるエンスケールResNetについて検討する。
この結果から,遅延学習体制を超えた深層ResNetの一般化能力に関する新たな知見が得られた。
論文 参考訳(メタデータ) (2024-03-14T21:48:00Z) - PirateNets: Physics-informed Deep Learning with Residual Adaptive
Networks [19.519831541375144]
本研究では,深いPINNモデルの安定かつ効率的なトレーニングを容易にするために物理インフォームドResidual Adaptive Networks(PirateNets)を導入する。
PirateNetsは、新たなアダプティブな残留接続を活用し、トレーニング中に徐々に深くなっていく浅いネットワークとしてネットワークを利用できる。
PirateNetsは最適化が容易で、精度が大幅に向上し、最終的には様々なベンチマークで最先端の結果が得られます。
論文 参考訳(メタデータ) (2024-02-01T04:17:56Z) - Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth
Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。
トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文 参考訳(メタデータ) (2023-09-12T13:03:47Z) - A Generalization of Continuous Relaxation in Structured Pruning [0.3277163122167434]
トレンドは、パラメータが増加するより深い、より大きなニューラルネットワークが、より小さなニューラルネットワークよりも高い精度を達成することを示している。
ネットワーク拡張, プルーニング, サブネットワーク崩壊, 削除のためのアルゴリズムを用いて, 構造化プルーニングを一般化する。
結果のCNNは計算コストのかかるスパース行列演算を使わずにGPUハードウェア上で効率的に実行される。
論文 参考訳(メタデータ) (2023-08-28T14:19:13Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - DreamNet: A Deep Riemannian Network based on SPD Manifold Learning for
Visual Classification [36.848148506610364]
SPD行列学習のための新しいアーキテクチャを提案する。
深層表現を豊かにするために、SPDNetをバックボーンとして採用する。
次に、SRAEの表現能力を高めるために、ショートカット接続を持つ残余ブロックをいくつか挿入する。
論文 参考訳(メタデータ) (2022-06-16T07:15:20Z) - Edge Rewiring Goes Neural: Boosting Network Resilience via Policy
Gradient [62.660451283548724]
ResiNetは、さまざまな災害や攻撃に対する回復力のあるネットワークトポロジを発見するための強化学習フレームワークである。
ResiNetは複数のグラフに対してほぼ最適のレジリエンス向上を実現し,ユーティリティのバランスを保ちながら,既存のアプローチに比べて大きなマージンを持つことを示す。
論文 参考訳(メタデータ) (2021-10-18T06:14:28Z) - ReduNet: A White-box Deep Network from the Principle of Maximizing Rate
Reduction [32.489371527159236]
この研究は、データ圧縮と識別表現の原理から、現代の深層(畳み込み)ネットワークを解釈することを目的とした、妥当な理論フレームワークの提供を試みる。
高次元マルチクラスデータに対して、最適な線形判別表現は、データセット全体と全てのサブセットの平均との符号化速度差を最大化することを示す。
速度減少目標を最適化するための基本的反復的勾配上昇スキームは,現代のディープネットワークの共通特性を共有する多層ディープネットワークであるReduNetに自然に導かれることを示す。
論文 参考訳(メタデータ) (2021-05-21T16:29:57Z) - Kernel-Based Smoothness Analysis of Residual Networks [85.20737467304994]
ResNets(Residual Networks)は、これらの強力なモダンアーキテクチャの中でも際立っている。
本稿では,2つのモデル,すなわちResNetsが勾配よりもスムーズな傾向を示す。
論文 参考訳(メタデータ) (2020-09-21T16:32:04Z) - Eigendecomposition-Free Training of Deep Networks for Linear
Least-Square Problems [107.3868459697569]
我々は、ディープネットワークのトレーニングに固有分解のないアプローチを導入する。
この手法は固有分解の明示的な微分よりもはるかに堅牢であることを示す。
我々の手法は収束特性が良く、最先端の結果が得られます。
論文 参考訳(メタデータ) (2020-04-15T04:29:34Z) - A Mean-field Analysis of Deep ResNet and Beyond: Towards Provable
Optimization Via Overparameterization From Depth [19.866928507243617]
勾配降下(SGD)を伴う深層ニューラルネットワークのトレーニングは、現実世界の風景でのトレーニング損失をゼロにすることが多い。
我々は,アラーがグローバルであるという意味で優れたトレーニングを享受する,無限大深部残差ネットワークの新たな限界を提案する。
論文 参考訳(メタデータ) (2020-03-11T20:14:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。