論文の概要: Exploring Loss Landscapes through the Lens of Spin Glass Theory
- arxiv url: http://arxiv.org/abs/2407.20724v1
- Date: Tue, 30 Jul 2024 10:37:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 17:30:03.462111
- Title: Exploring Loss Landscapes through the Lens of Spin Glass Theory
- Title(参考訳): スピングラス理論のレンズによる失われた景観の探索
- Authors: Hao Liao, Wei Zhang, Zhanyi Huang, Zexiao Long, Mingyang Zhou, Xiaoqun Wu, Rui Mao, Chi Ho Yeung,
- Abstract要約: ディープニューラルネットワーク(DNN)の内部表現、意思決定メカニズム、過度にパラメータ化された空間における過度な適合の欠如、高い一般化可能性など、いまだに理解されていない。
本論文は、統計物理学におけるスピンガラスのレンズによるDNNの損失状況について述べる。
- 参考スコア(独自算出の注目度): 8.693506828591282
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In the past decade, significant strides in deep learning have led to numerous groundbreaking applications. Despite these advancements, the understanding of the high generalizability of deep learning, especially in such an over-parametrized space, remains limited. Successful applications are often considered as empirical rather than scientific achievements. For instance, deep neural networks' (DNNs) internal representations, decision-making mechanism, absence of overfitting in an over-parametrized space, high generalizability, etc., remain less understood. This paper delves into the loss landscape of DNNs through the lens of spin glass in statistical physics, i.e. a system characterized by a complex energy landscape with numerous metastable states, to better understand how DNNs work. We investigated a single hidden layer Rectified Linear Unit (ReLU) neural network model, and introduced several protocols to examine the analogy between DNNs (trained with datasets including MNIST and CIFAR10) and spin glass. Specifically, we used (1) random walk in the parameter space of DNNs to unravel the structures in their loss landscape; (2) a permutation-interpolation protocol to study the connection between copies of identical regions in the loss landscape due to the permutation symmetry in the hidden layers; (3) hierarchical clustering to reveal the hierarchy among trained solutions of DNNs, reminiscent of the so-called Replica Symmetry Breaking (RSB) phenomenon (i.e. the Parisi solution) in analogy to spin glass; (4) finally, we examine the relationship between the degree of the ruggedness of the loss landscape of the DNN and its generalizability, showing an improvement of flattened minima.
- Abstract(参考訳): 過去10年間で、ディープラーニングの大きな進歩は、多くの画期的な応用に繋がった。
これらの進歩にもかかわらず、ディープラーニングの高一般化性、特にそのような過度にパラメータ化された空間における理解は依然として限られている。
成功した応用は科学的な成果よりも経験的と見なされることが多い。
例えば、ディープニューラルネットワーク(DNN)の内部表現、意思決定メカニズム、過度にパラメータ化された空間における過度な適合の欠如、高い一般化可能性などについては、いまだに理解されていない。
この論文は、DNNの損失景観を統計物理学におけるスピンガラスのレンズ、すなわち、多くの準安定状態を持つ複雑なエネルギー景観を特徴とするシステムを通して掘り下げ、DNNの動作をよりよく理解する。
我々は,単一の隠蔽層rectified Linear Unit(ReLU)ニューラルネットワークモデルについて検討し,DNN(MNISTやCIFAR10などのデータセットで訓練された)とスピングラスの類似性を調べるためのいくつかのプロトコルを導入した。
具体的には,(1)DNNのパラメータ空間をランダムに歩いたり,(2)隠れた層における置換対称性による損失ランドスケープ内の同一領域のコピー間の接続を研究するための置換補間プロトコル,(3)DNNのトレーニングされた解の階層性を明らかにする階層的クラスタリング,(3)スピングラスに類似したいわゆるReplica Symmetry Breaking(RSB)現象(すなわちパリ溶液)を連想させる階層的クラスタリング,(4)DNNの損失ランドスケープの粗さの程度と一般性との関係について検討し,フラット化ミニマの改良を示す。
関連論文リスト
- Recurrent neural networks: vanishing and exploding gradients are not the end of the story [13.429440202738647]
リカレントニューラルネットワーク(RNN)は長期記憶の学習に苦慮している。
状態空間モデル(SSM)の最近の成功は、我々の理論的理解を困難にしている。
論文 参考訳(メタデータ) (2024-05-31T17:53:00Z) - Deeper or Wider: A Perspective from Optimal Generalization Error with Sobolev Loss [2.07180164747172]
より深いニューラルネットワーク(DeNN)と、柔軟な数のレイヤと、限られた隠れたレイヤを持つより広いニューラルネットワーク(WeNN)を比較します。
より多くのパラメータがWeNNを好む傾向にあるのに対し、サンプルポイントの増加と損失関数の規則性の向上は、DeNNの採用に傾いている。
論文 参考訳(メタデータ) (2024-01-31T20:10:10Z) - DepWiGNN: A Depth-wise Graph Neural Network for Multi-hop Spatial
Reasoning in Text [52.699307699505646]
マルチホップ空間推論のためのDepWiGNN(Depth-Wise Graph Neural Network)を提案する。
具体的には,新しいノードメモリ方式を設計し,グラフの幅次元ではなく深さ次元の情報を集約する。
2つの挑戦的なマルチホップ空間推論データセットの実験結果から,DepWiGNNが既存の空間推論手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-10-19T08:07:22Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - Critical Investigation of Failure Modes in Physics-informed Neural
Networks [0.9137554315375919]
合成定式化による物理インフォームドニューラルネットワークは、最適化が難しい非学習損失面を生成することを示す。
また,2つの楕円問題に対する2つのアプローチを,より複雑な目標解を用いて評価する。
論文 参考訳(メタデータ) (2022-06-20T18:43:35Z) - Deep Architecture Connectivity Matters for Its Convergence: A
Fine-Grained Analysis [94.64007376939735]
我々は、勾配降下訓練におけるディープニューラルネットワーク(DNN)の収束に対する接続パターンの影響を理論的に特徴づける。
接続パターンの単純なフィルタリングによって、評価対象のモデルの数を削減できることが示される。
論文 参考訳(メタデータ) (2022-05-11T17:43:54Z) - Embedding Principle of Loss Landscape of Deep Neural Networks [1.1958610985612828]
ディープニューラルネットワーク(DNN)のロスランドスケープが,すべてのDNNの重要な原則を“含んでいる”ことを示す。
広いDNNは、狭いDNNから埋め込まれた高度に退化した臨界点に埋め込まれていることが多い。
論文 参考訳(メタデータ) (2021-05-30T15:32:32Z) - Topological obstructions in neural networks learning [67.8848058842671]
損失勾配関数フローのグローバル特性について検討する。
損失関数とそのモースコンプレックスの位相データ解析を用いて,損失面の大域的特性と勾配軌道に沿った局所的挙動を関連付ける。
論文 参考訳(メタデータ) (2020-12-31T18:53:25Z) - Anomalous diffusion dynamics of learning in deep neural networks [0.0]
ディープニューラルネットワーク(DNN)の学習は、高度に非平衡な損失関数を最小化することによって実現される。
本稿では, ロスランドスケープのフラクタル様構造の相互作用を通じて, このような効果的な深層学習が出現することを示す。
論文 参考訳(メタデータ) (2020-09-22T14:57:59Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z) - Boosting Deep Neural Networks with Geometrical Prior Knowledge: A Survey [77.99182201815763]
ディープニューラルネットワーク(DNN)は多くの異なる問題設定において最先端の結果を達成する。
DNNはしばしばブラックボックスシステムとして扱われ、評価と検証が複雑になる。
コンピュータビジョンタスクにおける畳み込みニューラルネットワーク(CNN)の成功に触発された、有望な分野のひとつは、対称幾何学的変換に関する知識を取り入れることである。
論文 参考訳(メタデータ) (2020-06-30T14:56:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。