論文の概要: Learning Two-Layer Neural Networks, One (Giant) Step at a Time
- arxiv url: http://arxiv.org/abs/2305.18270v1
- Date: Mon, 29 May 2023 17:43:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 13:43:14.194565
- Title: Learning Two-Layer Neural Networks, One (Giant) Step at a Time
- Title(参考訳): 2層ニューラルネットワークの学習
- Authors: Yatin Dandi, Florent Krzakala, Bruno Loureiro, Luca Pesce, Ludovic
Stephan
- Abstract要約: 浅層ニューラルネットワークのトレーニング力学について検討する。
本研究では,多数のバッチ勾配勾配ステップが特徴学習を容易にする条件について検討する。
- 参考スコア(独自算出の注目度): 22.154969876570238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the training dynamics of shallow neural networks, investigating the
conditions under which a limited number of large batch gradient descent steps
can facilitate feature learning beyond the kernel regime. We compare the
influence of batch size and that of multiple (but finitely many) steps. Our
analysis of a single-step process reveals that while a batch size of $n = O(d)$
enables feature learning, it is only adequate for learning a single direction,
or a single-index model. In contrast, $n = O(d^2)$ is essential for learning
multiple directions and specialization. Moreover, we demonstrate that ``hard''
directions, which lack the first $\ell$ Hermite coefficients, remain unobserved
and require a batch size of $n = O(d^\ell)$ for being captured by gradient
descent. Upon iterating a few steps, the scenario changes: a batch-size of $n =
O(d)$ is enough to learn new target directions spanning the subspace linearly
connected in the Hermite basis to the previously learned directions, thereby a
staircase property. Our analysis utilizes a blend of techniques related to
concentration, projection-based conditioning, and Gaussian equivalence that are
of independent interest. By determining the conditions necessary for learning
and specialization, our results highlight the interaction between batch size
and number of iterations, and lead to a hierarchical depiction where learning
performance exhibits a stairway to accuracy over time and batch size, shedding
new light on feature learning in neural networks.
- Abstract(参考訳): 本研究では,浅層ニューラルネットワークの学習ダイナミクスについて検討し,多数のバッチ勾配降下ステップがカーネルレジームを超えて機能学習を容易にする条件について検討した。
バッチサイズと複数の(しかし、有限個の)ステップの影響を比較する。
単一ステップのプロセスの解析では,バッチサイズが$n = O(d)$で機能学習が可能であるのに対して,単一方向や単一インデックスモデルを学ぶのに十分であることがわかった。
対照的に、$n = O(d^2)$ は複数の方向の学習と特殊化に不可欠である。
さらに,最初の $\ell$ hermite 係数を持たない ``hard'' 方向は観測されず,勾配降下によって捕獲されるには $n = o(d^\ell)$ のバッチサイズを必要とすることを示した。
いくつかのステップを繰り返すと、シナリオが変わる: $n = o(d)$ のバッチサイズは、ヘルマイトベースで線形に接続された部分空間にまたがる新たなターゲット方向を学習するのに十分である。
本分析では, 濃度, 投射に基づく条件付け, ガウス同値など, 独立した興味を持つ手法を併用する。
学習と専門化に必要な条件を決定することで、バッチサイズとイテレーション数との相互作用を強調し、学習性能が時間とバッチサイズにおける精度の階段を示し、ニューラルネットワークにおける特徴学習に新たな光を当てる階層的描写へと導く。
関連論文リスト
- Step-size Optimization for Continual Learning [5.834516080130717]
継続的な学習では、学習者は生涯にわたってデータから学び続けなければならない。
ニューラルネットワークでは、ステップサイズのベクトルを使用して、サンプルがネットワーク重みを変化させる程度をスケールすることで、これを実装できる。
RMSPropやAdamのような一般的なアルゴリズムは、このステップサイズのベクトルに適応するために勾配、特に正規化を使用する。
論文 参考訳(メタデータ) (2024-01-30T19:35:43Z) - Cramer Type Distances for Learning Gaussian Mixture Models by Gradient
Descent [0.0]
今日まで、ガウス混合モデルに適合または学習できる既知のアルゴリズムはほとんどない。
一般多変量GMM学習のためのスライスクラマー2距離関数を提案する。
これらの機能は、分散強化学習とディープQネットワークに特に有用である。
論文 参考訳(メタデータ) (2023-07-13T13:43:02Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - AMS-Net: Adaptive Multiscale Sparse Neural Network with Interpretable
Basis Expansion for Multiphase Flow Problems [8.991619150027267]
本研究では、物理過程の学習に応用可能な適応スパース学習アルゴリズムを提案し、大きなスナップショット空間を与えられた解のスパース表現を得る。
基本関数の情報は損失関数に組み込まれており、複数の時間ステップにおけるダウンスケール縮小次数解と参照解との差を最小限に抑える。
複雑なアプリケーションにおける提案手法の有効性と解釈性を示すため, 2相多相流問題に対してより数値的な実験を行った。
論文 参考訳(メタデータ) (2022-07-24T13:12:43Z) - Neural Networks can Learn Representations with Gradient Descent [68.95262816363288]
特定の状況下では、勾配降下によって訓練されたニューラルネットワークは、カーネルメソッドのように振る舞う。
実際には、ニューラルネットワークが関連するカーネルを強く上回ることが知られている。
論文 参考訳(メタデータ) (2022-06-30T09:24:02Z) - High-dimensional Asymptotics of Feature Learning: How One Gradient Step
Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。
我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文 参考訳(メタデータ) (2022-05-03T12:09:59Z) - Learning to Accelerate by the Methods of Step-size Planning [11.65690857661528]
勾配降下は不条件問題や非次元問題に対して収束するのが遅い。
ステップサイズ適応は加速の重要な手法である。
我々は,Nesterovの加速速度の収束率を超えることができることを示す。
論文 参考訳(メタデータ) (2022-04-01T19:59:40Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z) - Multi-task Supervised Learning via Cross-learning [102.64082402388192]
我々は,様々なタスクを解くことを目的とした回帰関数の集合を適合させることで,マルチタスク学習と呼ばれる問題を考える。
我々の新しい定式化では、これらの関数のパラメータを2つに分けて、互いに近づきながらタスク固有のドメインで学習する。
これにより、異なるドメインにまたがって収集されたデータが、互いのタスクにおける学習パフォーマンスを改善するのに役立つ、クロス・ファーティライズが促進される。
論文 参考訳(メタデータ) (2020-10-24T21:35:57Z) - Backward Feature Correction: How Deep Learning Performs Deep
(Hierarchical) Learning [66.05472746340142]
本稿では,SGD による階層的学習 _efficiently_ と _automatically_ を学習目標として,多層ニューラルネットワークがどのように行うかを分析する。
我々は、下位機能のエラーを上位層と共にトレーニングする際に自動的に修正できる"後方特徴補正"と呼ばれる新しい原則を確立する。
論文 参考訳(メタデータ) (2020-01-13T17:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。