論文の概要: Anomalous diffusion dynamics of learning in deep neural networks
- arxiv url: http://arxiv.org/abs/2009.10588v2
- Date: Sun, 25 Jul 2021 08:13:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 21:51:06.391157
- Title: Anomalous diffusion dynamics of learning in deep neural networks
- Title(参考訳): 深層ニューラルネットワークにおける学習の異常拡散ダイナミクス
- Authors: Guozhang Chen, Cheng Kevin Qu, Pulin Gong
- Abstract要約: ディープニューラルネットワーク(DNN)の学習は、高度に非平衡な損失関数を最小化することによって実現される。
本稿では, ロスランドスケープのフラクタル様構造の相互作用を通じて, このような効果的な深層学習が出現することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning in deep neural networks (DNNs) is implemented through minimizing a
highly non-convex loss function, typically by a stochastic gradient descent
(SGD) method. This learning process can effectively find good wide minima
without being trapped in poor local ones. We present a novel account of how
such effective deep learning emerges through the interactions of the SGD and
the geometrical structure of the loss landscape. Rather than being a normal
diffusion process (i.e. Brownian motion) as often assumed, we find that the SGD
exhibits rich, complex dynamics when navigating through the loss landscape;
initially, the SGD exhibits anomalous superdiffusion, which attenuates
gradually and changes to subdiffusion at long times when the solution is
reached. Such learning dynamics happen ubiquitously in different DNNs such as
ResNet and VGG-like networks and are insensitive to batch size and learning
rate. The anomalous superdiffusion process during the initial learning phase
indicates that the motion of SGD along the loss landscape possesses
intermittent, big jumps; this non-equilibrium property enables the SGD to
escape from sharp local minima. By adapting the methods developed for studying
energy landscapes in complex physical systems, we find that such superdiffusive
learning dynamics are due to the interactions of the SGD and the fractal-like
structure of the loss landscape. We further develop a simple model to
demonstrate the mechanistic role of the fractal loss landscape in enabling the
SGD to effectively find global minima. Our results thus reveal the
effectiveness of deep learning from a novel perspective and have implications
for designing efficient deep neural networks.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)の学習は、通常、確率勾配降下(SGD)法によって、非凸損失関数を最小化することによって実施される。
この学習プロセスは、貧しい地元のものに閉じ込められることなく、効果的に良い幅のミニマムを見つけることができる。
本稿では,SGDと損失景観の幾何学的構造との相互作用を通じて,このような効果的な深層学習が出現することを示す。
通常の拡散過程(すなわちブラウン運動)ではなく、損失ランドスケープをナビゲートする際にSGDはリッチで複雑なダイナミクスを示し、最初はSGDは異常な過拡散を示し、解が到達した時に徐々に減衰し、亜拡散に変化する。
このような学習ダイナミクスは、ResNetやVGGのようなネットワークなど、さまざまなDNNでユビキタスに行われ、バッチサイズや学習速度に敏感である。
初期学習段階における異常な過拡散過程は、損失ランドスケープに沿ったSGDの運動が断続的で大きなジャンプを持つことを示している。
複雑な物理系のエネルギー景観を研究するために開発された手法を適用することで、そのような超拡散学習のダイナミクスは、SGDと損失景観のフラクタル様構造との相互作用によるものであることが分かる。
さらに,フラクタルロスランドスケープの機構的役割を,sgdがグローバルミニマを効果的に発見できるようにするための簡単なモデルを開発した。
その結果,新しい視点からの深層学習の有効性が明らかとなり,効率的な深層ニューラルネットワークの設計に寄与した。
関連論文リスト
- Dynamical loss functions shape landscape topography and improve learning in artificial neural networks [0.9208007322096533]
クロスエントロピーと平均二乗誤差を動的損失関数に変換する方法を示す。
異なるサイズのネットワークに対する検証精度を大幅に向上させる方法を示す。
論文 参考訳(メタデータ) (2024-10-14T16:27:03Z) - Exploring Loss Landscapes through the Lens of Spin Glass Theory [8.693506828591282]
ディープニューラルネットワーク(DNN)では、内部表現、意思決定機構、過度にパラメータ化された空間における過度な適合の欠如、優れた一般化可能性等は理解されていない。
本稿では,多数の準安定状態を持つ複雑なエネルギー景観を特徴とするDNNの損失景観を,統計物理学におけるスピンガラスのレンズを通して考察する。
論文 参考訳(メタデータ) (2024-07-30T10:37:15Z) - Towards Generalization in Subitizing with Neuro-Symbolic Loss using
Holographic Reduced Representations [49.22640185566807]
CogSci研究で使用される適応ツールは、CNNとViTのサブティナイズ一般化を改善することができることを示す。
学習におけるこの神経-記号的アプローチが,CNNやVTのサブティナイズ能力にどのように影響するかを検討する。
HRRに基づく損失が改善する一方の軸を除いて、ほとんどの点において、サブタイズにおいてViTはCNNと比較して著しく低下することがわかった。
論文 参考訳(メタデータ) (2023-12-23T17:54:03Z) - Lightweight Diffusion Models with Distillation-Based Block Neural
Architecture Search [55.41583104734349]
拡散蒸留に基づくブロックワイドニューラルネットワークサーチ(NAS)により拡散モデルの構造的冗長性を自動的に除去することを提案する。
事前訓練を受けた教師がより多い場合、DiffNASを利用して、教師よりもパフォーマンスが良い最小限のアーキテクチャを探索する。
従来のブロックワイズNAS法とは異なり、DiffNASはブロックワイズ局所探索戦略と、関節ダイナミックロスを伴う再訓練戦略を含んでいる。
論文 参考訳(メタデータ) (2023-11-08T12:56:59Z) - SGD with Large Step Sizes Learns Sparse Features [22.959258640051342]
本稿では、ニューラルネットワークのトレーニングにおいて、グラディエント・ディフレッシュ(SGD)のダイナミクスの重要な特徴を紹介する。
より長いステップサイズでは、損失ランドスケープにおいてSGDは高く保たれ、暗黙の正規化がうまく機能し、スパース表現を見つけることができる。
論文 参考訳(メタデータ) (2022-10-11T11:00:04Z) - Early Stage Convergence and Global Convergence of Training Mildly
Parameterized Neural Networks [3.148524502470734]
トレーニングの初期段階において,損失はかなりの量減少し,この減少は急速に進行することを示す。
我々は、ニューロンの活性化パターンを顕微鏡で解析し、勾配のより強力な下界を導出するのに役立つ。
論文 参考訳(メタデータ) (2022-06-05T09:56:50Z) - FuNNscope: Visual microscope for interactively exploring the loss
landscape of fully connected neural networks [77.34726150561087]
ニューラルネットワークの高次元景観特性を探索する方法を示す。
我々は、小さなニューラルネットワークの観測結果をより複雑なシステムに一般化する。
インタラクティブダッシュボードは、いくつかのアプリケーションネットワークを開放する。
論文 参考訳(メタデータ) (2022-04-09T16:41:53Z) - Reducing Catastrophic Forgetting in Self Organizing Maps with
Internally-Induced Generative Replay [67.50637511633212]
生涯学習エージェントは、パターン知覚データの無限のストリームから継続的に学習することができる。
適応するエージェントを構築する上での歴史的難しさの1つは、ニューラルネットワークが新しいサンプルから学ぶ際に、以前取得した知識を維持するのに苦労していることである。
この問題は破滅的な忘れ(干渉)と呼ばれ、今日の機械学習の領域では未解決の問題のままである。
論文 参考訳(メタデータ) (2021-12-09T07:11:14Z) - Going beyond p-convolutions to learn grayscale morphological operators [64.38361575778237]
p-畳み込み層と同じ原理に基づく2つの新しい形態層を提示する。
本研究では, p-畳み込み層と同じ原理に基づく2つの新しい形態層を示す。
論文 参考訳(メタデータ) (2021-02-19T17:22:16Z) - Tilting the playing field: Dynamical loss functions for machine learning [18.831125493827766]
学習中に周期的に進化する損失関数を用いて1つのクラスを同時に強調することにより、学習を改善することができることを示す。
改善は、損失を最小限に抑えるために進化するシステムのダイナミクスと、変化する損失景観の相互作用から生じる。
論文 参考訳(メタデータ) (2021-02-07T13:15:08Z) - Limited-angle tomographic reconstruction of dense layered objects by
dynamical machine learning [68.9515120904028]
強い散乱準透明物体の有限角トモグラフィーは困難で、非常に不適切な問題である。
このような問題の状況を改善することにより、アーティファクトの削減には、事前の定期化が必要である。
我々は,新しい分割畳み込みゲート再帰ユニット(SC-GRU)をビルディングブロックとして,リカレントニューラルネットワーク(RNN)アーキテクチャを考案した。
論文 参考訳(メタデータ) (2020-07-21T11:48:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。