論文の概要: Does SGD really happen in tiny subspaces?
- arxiv url: http://arxiv.org/abs/2405.16002v1
- Date: Sat, 25 May 2024 01:44:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 01:39:22.725620
- Title: Does SGD really happen in tiny subspaces?
- Title(参考訳): SGDは本当に小さな部分空間で起こるのか?
- Authors: Minhak Song, Kwangjun Ahn, Chulhee Yun,
- Abstract要約: 近年の研究では、トレーニング軌道に沿って、勾配がトレーニング損失 Hessian の低ランクトップ固有空間とほぼ一致していることが示されている。
本稿では,ニューラルネットワークが支配的な部分空間内でトレーニング可能かどうかを考察し,より効率的なトレーニング手法を提案する。
- 参考スコア(独自算出の注目度): 18.283839252425803
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Understanding the training dynamics of deep neural networks is challenging due to their high-dimensional nature and intricate loss landscapes. Recent studies have revealed that, along the training trajectory, the gradient approximately aligns with a low-rank top eigenspace of the training loss Hessian, referred to as the dominant subspace. Given this alignment, this paper explores whether neural networks can be trained within the dominant subspace, which, if feasible, could lead to more efficient training methods. Our primary observation is that when the SGD update is projected onto the dominant subspace, the training loss does not decrease further. This suggests that the observed alignment between the gradient and the dominant subspace is spurious. Surprisingly, projecting out the dominant subspace proves to be just as effective as the original update, despite removing the majority of the original update component. Similar observations are made for the large learning rate regime (also known as Edge of Stability) and Sharpness-Aware Minimization. We discuss the main causes and implications of this spurious alignment, shedding light on the intricate dynamics of neural network training.
- Abstract(参考訳): ディープニューラルネットワークのトレーニングダイナミクスを理解することは、その高次元の性質と複雑なロスランドスケープのために難しい。
近年の研究では、トレーニング軌道に沿って勾配が、支配的部分空間と呼ばれる訓練損失 Hessian の低ランクトップ固有空間とほぼ一致していることが示されている。
このアライメントを前提として、ニューラルネットワークが支配的な部分空間内でトレーニングできるかどうかを検討する。
我々の第一の観察は、SGD更新が支配的な部分空間に投影されると、トレーニング損失はさらに減少しないことである。
このことは、勾配と支配部分空間の間の観測されたアライメントが突発的であることを示唆している。
驚いたことに、支配的なサブスペースを投影することは、元のアップデートコンポーネントの大部分を削除したにもかかわらず、オリジナルのアップデートと同じくらい効果的であることが証明されている。
同様に、大きな学習率体系(安定性のエッジ)とシャープネス・アウェア最小化(シャープネス・アウェア最小化)についても同様の観測がなされている。
我々は、この刺激的なアライメントの主な原因と意味について論じ、ニューラルネットワークトレーニングの複雑なダイナミクスに光を当てる。
関連論文リスト
- The Law of Parsimony in Gradient Descent for Learning Deep Linear
Networks [34.85235641812005]
我々は、データが低次元構造を持つ場合、学習力学において驚くべき「パシモニーの法則」を明らかにする。
この学習力学の単純さは、効率的なトレーニングとディープネットワークのより良い理解の両方に重大な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-06-01T21:24:53Z) - Sharpness-Aware Minimization Leads to Low-Rank Features [49.64754316927016]
シャープネス認識最小化(SAM)は、ニューラルネットワークのトレーニング損失を最小限に抑える手法である。
SAMはニューラルネットワークの異なる層で発生する特徴ランクを減少させる。
我々はこの効果を理論的に確認し、深層ネットワークでも起こりうることを確認する。
論文 参考訳(メタデータ) (2023-05-25T17:46:53Z) - Adversarial Examples Exist in Two-Layer ReLU Networks for Low
Dimensional Linear Subspaces [24.43191276129614]
標準手法が非ロバストニューラルネットワークに繋がることを示す。
トレーニングアルゴリズムのスケールを縮小させるか、あるいは$L$正規化を加えることで、トレーニングされたネットワークが敵の摂動に対してより堅牢になることを示す。
論文 参考訳(メタデータ) (2023-03-01T19:10:05Z) - SGD with Large Step Sizes Learns Sparse Features [22.959258640051342]
本稿では、ニューラルネットワークのトレーニングにおいて、グラディエント・ディフレッシュ(SGD)のダイナミクスの重要な特徴を紹介する。
より長いステップサイズでは、損失ランドスケープにおいてSGDは高く保たれ、暗黙の正規化がうまく機能し、スパース表現を見つけることができる。
論文 参考訳(メタデータ) (2022-10-11T11:00:04Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Minimizing Control for Credit Assignment with Strong Feedback [65.59995261310529]
ディープニューラルネットワークにおける勾配に基づくクレジット割り当ての現在の手法は、無限小のフィードバック信号を必要とする。
我々は、神経活動に対する強いフィードバックと勾配に基づく学習を組み合わせることで、ニューラルネットワークの最適化に関する新たな視点を自然に導き出すことを示す。
DFCにおける強いフィードバックを用いることで、空間と時間において完全に局所的な学習規則を用いることで、前向きとフィードバックの接続を同時に学習できることを示す。
論文 参考訳(メタデータ) (2022-04-14T22:06:21Z) - There is a Singularity in the Loss Landscape [0.0]
データセットのサイズが大きくなるにつれて、損失の勾配の大きさが無界となる点が形成される。
この特異性は、ニューラルネットワーク損失関数のヘッセンで最近観測された様々な現象を説明する。
論文 参考訳(メタデータ) (2022-01-12T01:50:06Z) - Reducing Catastrophic Forgetting in Self Organizing Maps with
Internally-Induced Generative Replay [67.50637511633212]
生涯学習エージェントは、パターン知覚データの無限のストリームから継続的に学習することができる。
適応するエージェントを構築する上での歴史的難しさの1つは、ニューラルネットワークが新しいサンプルから学ぶ際に、以前取得した知識を維持するのに苦労していることである。
この問題は破滅的な忘れ(干渉)と呼ばれ、今日の機械学習の領域では未解決の問題のままである。
論文 参考訳(メタデータ) (2021-12-09T07:11:14Z) - Exploring the Common Principal Subspace of Deep Features in Neural
Networks [50.37178960258464]
我々は、同じデータセットでトレーニングされた異なるディープニューラルネットワーク(DNN)が、潜在空間において共通の主部分空間を共有することを発見した。
具体的には、DNNで学んだ深い機能の主部分空間を表すために、$mathcalP$-vectorを新たに設計する。
異なるアルゴリズム/アーキテクチャで訓練された2つのDNNの比較では、小さな角度(コサインが1.0ドルに近い)が見つかっている。
論文 参考訳(メタデータ) (2021-10-06T15:48:32Z) - Align, then memorise: the dynamics of learning with feedback alignment [12.587037358391418]
直接フィードバックアライメント(DFA)は、ディープニューラルネットワークのトレーニングのためのユビキタスバックプロパゲーションアルゴリズムの効率的な代替手段である。
DFAはTransformersのような最先端モデルのトレーニングに成功したが、畳み込みネットワークのトレーニングには失敗している。
本稿では,DFAの成功に関する理論を提案する。
論文 参考訳(メタデータ) (2020-11-24T22:21:27Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。