論文の概要: The Benefits of Reusing Batches for Gradient Descent in Two-Layer
Networks: Breaking the Curse of Information and Leap Exponents
- arxiv url: http://arxiv.org/abs/2402.03220v1
- Date: Mon, 5 Feb 2024 17:30:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 14:45:47.447150
- Title: The Benefits of Reusing Batches for Gradient Descent in Two-Layer
Networks: Breaking the Curse of Information and Leap Exponents
- Title(参考訳): 二層ネットワークにおける勾配降下のためのバッチ再利用の利点:情報の呪いと跳躍指数の破れ
- Authors: Yatin Dandi, Emanuele Troiani, Luca Arnaboldi, Luca Pesce, Lenka
Zdeborov\'a, and Florent Krzakala
- Abstract要約: マルチインデックスターゲット関数を学習する際の2層ニューラルネットワークのトレーニングダイナミクスについて検討する。
本稿では,複数回バッチを再利用するマルチパス勾配勾配(GD)に着目し,どの関数が学習可能かという結論を大きく変えることを示す。
再使用したバッチでは,階段特性を満足しない関数であっても,ネットワークがターゲット部分空間と重なり合う2つのステップで達成できることが示される。
- 参考スコア(独自算出の注目度): 18.137677144498774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the training dynamics of two-layer neural networks when
learning multi-index target functions. We focus on multi-pass gradient descent
(GD) that reuses the batches multiple times and show that it significantly
changes the conclusion about which functions are learnable compared to
single-pass gradient descent. In particular, multi-pass GD with finite stepsize
is found to overcome the limitations of gradient flow and single-pass GD given
by the information exponent (Ben Arous et al., 2021) and leap exponent (Abbe et
al., 2023) of the target function. We show that upon re-using batches, the
network achieves in just two time steps an overlap with the target subspace
even for functions not satisfying the staircase property (Abbe et al., 2021).
We characterize the (broad) class of functions efficiently learned in finite
time. The proof of our results is based on the analysis of the Dynamical
Mean-Field Theory (DMFT). We further provide a closed-form description of the
dynamical process of the low-dimensional projections of the weights, and
numerical experiments illustrating the theory.
- Abstract(参考訳): マルチインデックスターゲット関数を学習する際の2層ニューラルネットワークのトレーニングダイナミクスについて検討する。
本稿では,複数回バッチを再利用するマルチパス勾配勾配(GD)に着目し,単一パス勾配勾配よりも学習可能な関数の結論を大きく変えることを示す。
特に、有限ステップのマルチパスgdは、対象関数の情報指数(ben arous et al., 2021)と跳躍指数(abbe et al., 2023)によって与えられる勾配流と単一パスgdの制限を克服する。
本稿では, 階段特性を満足しない関数に対しても, ネットワークは2つの時間ステップで目標部分空間と重なり合うことを実証する(Abbe et al., 2021)。
有限時間で効率的に学習された関数の(分岐)クラスを特徴づける。
この結果の証明は、動的平均場理論(DMFT)の分析に基づいている。
さらに、重みの低次元射影の動的過程の閉形式記述と、その理論を説明する数値実験について述べる。
関連論文リスト
- Dynamic Decoupling of Placid Terminal Attractor-based Gradient Descent Algorithm [56.06235614890066]
勾配降下(GD)と勾配降下(SGD)は多くのアプリケーションドメインで広く使われている。
本稿では, 勾配流の異なる段階における終端アトラクタに基づくGDのダイナミクスを慎重に解析する。
論文 参考訳(メタデータ) (2024-09-10T14:15:56Z) - Repetita Iuvant: Data Repetition Allows SGD to Learn High-Dimensional Multi-Index Functions [20.036783417617652]
勾配に基づくアルゴリズムを用いて学習した2層浅層ニューラルネットワークのトレーニング力学について検討する。
理想化シングルパス勾配勾配学習シナリオの簡単な修正により,その計算効率が大幅に向上することを示す。
この結果から,ネットワークが事前処理なしでデータから関連構造を学習できることが示唆された。
論文 参考訳(メタデータ) (2024-05-24T11:34:31Z) - Asymptotics of feature learning in two-layer networks after one gradient-step [39.02152620420932]
本研究では,2層ニューラルネットワークがデータからどのように学習するかを考察し,カーネルの仕組みを改良する。
トレーニングネットワークをスパイクされたランダム特徴量(sRF)モデルでモデル化する。
高次元極限におけるsRFの一般化誤差を正確に記述する。
論文 参考訳(メタデータ) (2024-02-07T15:57:30Z) - Layer-wise Feedback Propagation [53.00944147633484]
本稿では、ニューラルネットワークのような予測器のための新しいトレーニング手法であるLFP(Layer-wise Feedback Propagation)を提案する。
LFPは、与えられたタスクの解決に対するそれぞれの貢献に基づいて、個々のコネクションに報酬を割り当てる。
各種モデルやデータセットの勾配降下に匹敵する性能を達成できることの有効性を実証する。
論文 参考訳(メタデータ) (2023-08-23T10:48:28Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - The Equalization Losses: Gradient-Driven Training for Long-tailed Object
Recognition [84.51875325962061]
本稿では,長距離問題に対処するための勾配駆動型学習機構を提案する。
我々は、勾配駆動損失関数の新たなファミリー、すなわち等化損失を導入する。
我々の手法は一貫してベースラインモデルより優れています。
論文 参考訳(メタデータ) (2022-10-11T16:00:36Z) - On the non-universality of deep learning: quantifying the cost of
symmetry [24.86176236641865]
雑音勾配降下法(GD)で学習したニューラルネットワークによる学習の計算限界を証明する。
我々は、完全接続ネットワークが二進ハイパーキューブと単位球上で弱学習できる機能の特徴付けを行う。
我々の手法は勾配降下(SGD)に拡張され、完全に接続されたネットワークで学習するための非自明な結果を示す。
論文 参考訳(メタデータ) (2022-08-05T11:54:52Z) - FOSTER: Feature Boosting and Compression for Class-Incremental Learning [52.603520403933985]
ディープニューラルネットワークは、新しいカテゴリーを学ぶ際に破滅的な忘れ方に悩まされる。
本稿では,新たなカテゴリを適応的に学習するためのモデルとして,新しい2段階学習パラダイムFOSTERを提案する。
論文 参考訳(メタデータ) (2022-04-10T11:38:33Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - The Impact of the Mini-batch Size on the Variance of Gradients in
Stochastic Gradient Descent [28.148743710421932]
ミニバッチ勾配勾配(SGD)アルゴリズムは機械学習モデルのトレーニングに広く用いられている。
線形回帰および2層線形ネットワーク下でのSGDダイナミクスについて検討し,より深い線形ネットワークへの拡張を容易にする。
論文 参考訳(メタデータ) (2020-04-27T20:06:11Z) - Investigating the interaction between gradient-only line searches and
different activation functions [0.0]
勾配専用線探索(GOLS)は、ニューラルネットワークトレーニングにおける不連続損失関数の探索方向に沿ったステップサイズを適応的に決定する。
GOLSは様々なアクティベーション機能に対して堅牢であるが,標準フィードフォワードアーキテクチャにおけるRectified Linear Unit(ReLU)アクティベーション機能に敏感であることがわかった。
論文 参考訳(メタデータ) (2020-02-23T12:28:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。