論文の概要: Convergence Analysis for Learning Orthonormal Deep Linear Neural
Networks
- arxiv url: http://arxiv.org/abs/2311.14658v2
- Date: Thu, 29 Feb 2024 05:14:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 18:12:10.382770
- Title: Convergence Analysis for Learning Orthonormal Deep Linear Neural
Networks
- Title(参考訳): 正規直交ディープリニアニューラルネットワーク学習のための収束解析
- Authors: Zhen Qin, Xuwei Tan, Zhihui Zhu
- Abstract要約: 本稿では,正規直交深部線形ニューラルネットワークの学習のための収束解析について述べる。
その結果、隠れた層の増加が収束速度にどのように影響するかが明らかになった。
- 参考スコア(独自算出の注目度): 27.29463801531576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enforcing orthonormal or isometric property for the weight matrices has been
shown to enhance the training of deep neural networks by mitigating gradient
exploding/vanishing and increasing the robustness of the learned networks.
However, despite its practical performance, the theoretical analysis of
orthonormality in neural networks is still lacking; for example, how
orthonormality affects the convergence of the training process. In this letter,
we aim to bridge this gap by providing convergence analysis for training
orthonormal deep linear neural networks. Specifically, we show that Riemannian
gradient descent with an appropriate initialization converges at a linear rate
for training orthonormal deep linear neural networks with a class of loss
functions. Unlike existing works that enforce orthonormal weight matrices for
all the layers, our approach excludes this requirement for one layer, which is
crucial to establish the convergence guarantee. Our results shed light on how
increasing the number of hidden layers can impact the convergence speed.
Experimental results validate our theoretical analysis.
- Abstract(参考訳): 重み行列の正則性や等尺性は、勾配の爆発/消滅を緩和し、学習ネットワークの堅牢性を高めることにより、ディープニューラルネットワークのトレーニングを強化することが示されている。
しかし、実際的な性能にもかかわらず、ニューラルネットワークの正則性の理論的解析はいまだに欠けており、例えば、正則性がトレーニングプロセスの収束にどのように影響するかである。
本稿では,正規直交深い線形ニューラルネットワークのトレーニングに収束解析を提供することで,このギャップを埋めることを目的とする。
具体的には,損失関数のクラスで正規直交の深い線形ニューラルネットワークを訓練するために,適切な初期化を伴うリーマン勾配降下が線形速度で収束することを示す。
すべての層に対して正規直交重み行列を強制する既存の作品とは異なり、このアプローチは1つの層に対するこの要件を除外し、収束保証を確立するのに不可欠である。
その結果,隠れた層数の増加が収束速度に与える影響を明らかにした。
実験結果は理論解析を検証する。
関連論文リスト
- Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Training invariances and the low-rank phenomenon: beyond linear networks [44.02161831977037]
線形分離可能なデータに対して、ロジスティックあるいは指数損失の深い線形ネットワークを訓練すると、重みは1$の行列に収束する。
非線形ReLU活性化フィードフォワードネットワークに対して、低ランク現象が厳格に証明されたのはこれが初めてである。
我々の証明は、あるパラメータの方向収束の下で重みが一定である多重線型関数と別のReLUネットワークへのネットワークの特定の分解に依存している。
論文 参考訳(メタデータ) (2022-01-28T07:31:19Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Optimization Theory for ReLU Neural Networks Trained with Normalization
Layers [82.61117235807606]
ディープニューラルネットワークの成功は、部分的には正規化レイヤの使用によるものだ。
我々の分析は、正規化の導入がランドスケープをどのように変化させ、より高速なアクティベーションを実現するかを示している。
論文 参考訳(メタデータ) (2020-06-11T23:55:54Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Implicit Bias of Gradient Descent for Wide Two-layer Neural Networks
Trained with the Logistic Loss [0.0]
勾配に基づく手法によるロジスティック(クロスエントロピー)損失を最小限に抑えるために訓練されたニューラルネットワークは、多くの教師付き分類タスクでうまく機能する。
我々は、均一な活性化を伴う無限に広い2層ニューラルネットワークのトレーニングと一般化の挙動を解析する。
論文 参考訳(メタデータ) (2020-02-11T15:42:09Z) - A Generalized Neural Tangent Kernel Analysis for Two-layer Neural
Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。
これは、トレーニング損失が一定の精度まで線形に収束することを意味する。
また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。