論文の概要: Low-Rank Learning by Design: the Role of Network Architecture and
Activation Linearity in Gradient Rank Collapse
- arxiv url: http://arxiv.org/abs/2402.06751v1
- Date: Fri, 9 Feb 2024 19:28:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 19:34:13.262496
- Title: Low-Rank Learning by Design: the Role of Network Architecture and
Activation Linearity in Gradient Rank Collapse
- Title(参考訳): 設計による低ランク学習:勾配ランク崩壊におけるネットワークアーキテクチャと活性化線形性の役割
- Authors: Bradley T. Baker, Barak A. Pearlmutter, Robyn Miller, Vince D.
Calhoun, Sergey M. Plis
- Abstract要約: ディープニューラルネットワーク(DNN)におけるデータ効果勾配ランクのアーキテクチャ的選択と構造について検討する。
我々の理論的分析は、完全連結、再帰、畳み込みニューラルネットワークのトレーニングにこれらの境界を提供する。
また、理論的にも経験的にも、アクティベーション関数の線形性、ボトルネック層の導入、畳み込みストライド、シーケンストランケーションといった設計選択がこれらの境界にどのように影響するかを示す。
- 参考スコア(独自算出の注目度): 14.817633094318253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Our understanding of learning dynamics of deep neural networks (DNNs) remains
incomplete. Recent research has begun to uncover the mathematical principles
underlying these networks, including the phenomenon of "Neural Collapse", where
linear classifiers within DNNs converge to specific geometrical structures
during late-stage training. However, the role of geometric constraints in
learning extends beyond this terminal phase. For instance, gradients in
fully-connected layers naturally develop a low-rank structure due to the
accumulation of rank-one outer products over a training batch. Despite the
attention given to methods that exploit this structure for memory saving or
regularization, the emergence of low-rank learning as an inherent aspect of
certain DNN architectures has been under-explored. In this paper, we conduct a
comprehensive study of gradient rank in DNNs, examining how architectural
choices and structure of the data effect gradient rank bounds. Our theoretical
analysis provides these bounds for training fully-connected, recurrent, and
convolutional neural networks. We also demonstrate, both theoretically and
empirically, how design choices like activation function linearity, bottleneck
layer introduction, convolutional stride, and sequence truncation influence
these bounds. Our findings not only contribute to the understanding of learning
dynamics in DNNs, but also provide practical guidance for deep learning
engineers to make informed design decisions.
- Abstract(参考訳): 深層ニューラルネットワーク(DNN)の学習力学の理解はいまだ不完全である。
近年、DNN内の線形分類器が後期訓練中に特定の幾何学的構造に収束する「ニューラル崩壊」現象など、これらのネットワークの基礎となる数学的原理を明らかにし始めている。
しかし、学習における幾何学的制約の役割は、この終端段階を超えて広がる。
例えば、完全連結層における勾配は、訓練バッチ上のランク1外積の蓄積によって自然に低ランク構造を発達させる。
この構造をメモリ節約や正規化に活用する手法に注目が集まっているにもかかわらず、特定のdnnアーキテクチャに固有の側面としての低ランク学習の出現は過小評価されている。
本稿では,DNNにおける勾配ランクの包括的研究を行い,データ効果勾配ランクのアーキテクチャ的選択と構造について検討する。
我々の理論的解析は、完全接続、リカレント、畳み込みニューラルネットワークのトレーニングにこれらの境界を提供する。
また,理論上,経験上,活性化関数線形性,ボトルネック層導入,畳み込みステップ,シーケンス切断といった設計選択が,これらの境界にどのように影響するかを実証した。
本研究は,dnnにおける学習ダイナミクスの理解に寄与するだけでなく,ディープラーニングエンジニアがインフォームドデザイン決定を行うための実践的なガイダンスを提供する。
関連論文リスト
- Deep neural networks architectures from the perspective of manifold
learning [0.0]
本稿では,ゲノメトリとトポロジの観点から,ニューラルネットワークアーキテクチャの包括的比較と記述を行う。
我々は、ニューラルネットワークの内部表現と、異なる層上のデータ多様体のトポロジーと幾何学の変化のダイナミクスに焦点を当てる。
論文 参考訳(メタデータ) (2023-06-06T04:57:39Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Deep Architecture Connectivity Matters for Its Convergence: A
Fine-Grained Analysis [94.64007376939735]
我々は、勾配降下訓練におけるディープニューラルネットワーク(DNN)の収束に対する接続パターンの影響を理論的に特徴づける。
接続パターンの単純なフィルタリングによって、評価対象のモデルの数を削減できることが示される。
論文 参考訳(メタデータ) (2022-05-11T17:43:54Z) - Leveraging The Topological Consistencies of Learning in Deep Neural
Networks [0.0]
我々は,実行中の計算の迅速化を図りながら,学習の進捗を正確に特徴付ける,新しいトポロジ的特徴のクラスを定義する。
提案するトポロジカルな特徴は, バックプロパゲーションに容易に対応できるので, エンド・ツー・エンドのトレーニングに組み込むことが可能である。
論文 参考訳(メタデータ) (2021-11-30T18:34:48Z) - On the Application of Data-Driven Deep Neural Networks in Linear and
Nonlinear Structural Dynamics [28.979990729816638]
線形および非線形構造力学系のサロゲートとしてディープニューラルネットワーク(DNN)モデルを用いる。
焦点は、完全に接続された、疎結合で、畳み込みネットワーク層を使った効率的なネットワークアーキテクチャの開発である。
提案したDNNは,高調波負荷下での線形および非線形動的応答の予測に有効かつ正確なサロゲートとして利用できることを示す。
論文 参考訳(メタデータ) (2021-11-03T13:22:19Z) - Characterizing Learning Dynamics of Deep Neural Networks via Complex
Networks [1.0869257688521987]
複素ネットワーク理論(CNT)は、ディープニューラルネットワーク(DNN)を重み付きグラフとして表現し、それらを動的システムとして研究する。
ノード/ニューロンとレイヤ、すなわちNodes StrengthとLayers Fluctuationのメトリクスを紹介します。
本フレームワークは,学習力学のトレンドを抽出し,高精度ネットワークから低次ネットワークを分離する。
論文 参考訳(メタデータ) (2021-10-06T10:03:32Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z) - Statistical Mechanics of Deep Linear Neural Networks: The
Back-Propagating Renormalization Group [4.56877715768796]
個々の単位の入力出力関数が線形である深線型ニューラルネットワーク(DLNN)における学習の統計力学について検討する。
重み空間における平衡ギブス分布を用いて教師あり学習後のネットワーク特性を正確に解く。
数値シミュレーションにより, 非線形性にもかかわらず, 理論の予測は大部分, 深さの小さいreluネットワークによって共有されていることが明らかとなった。
論文 参考訳(メタデータ) (2020-12-07T20:08:31Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z) - An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。
この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文 参考訳(メタデータ) (2020-06-19T22:05:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。