論文の概要: Learning Two-Layer Neural Networks, One (Giant) Step at a Time
- arxiv url: http://arxiv.org/abs/2305.18270v1
- Date: Mon, 29 May 2023 17:43:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 13:43:14.194565
- Title: Learning Two-Layer Neural Networks, One (Giant) Step at a Time
- Title(参考訳): 2層ニューラルネットワークの学習
- Authors: Yatin Dandi, Florent Krzakala, Bruno Loureiro, Luca Pesce, Ludovic
Stephan
- Abstract要約: 浅層ニューラルネットワークのトレーニング力学について検討する。
本研究では,多数のバッチ勾配勾配ステップが特徴学習を容易にする条件について検討する。
- 参考スコア(独自算出の注目度): 22.154969876570238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the training dynamics of shallow neural networks, investigating the
conditions under which a limited number of large batch gradient descent steps
can facilitate feature learning beyond the kernel regime. We compare the
influence of batch size and that of multiple (but finitely many) steps. Our
analysis of a single-step process reveals that while a batch size of $n = O(d)$
enables feature learning, it is only adequate for learning a single direction,
or a single-index model. In contrast, $n = O(d^2)$ is essential for learning
multiple directions and specialization. Moreover, we demonstrate that ``hard''
directions, which lack the first $\ell$ Hermite coefficients, remain unobserved
and require a batch size of $n = O(d^\ell)$ for being captured by gradient
descent. Upon iterating a few steps, the scenario changes: a batch-size of $n =
O(d)$ is enough to learn new target directions spanning the subspace linearly
connected in the Hermite basis to the previously learned directions, thereby a
staircase property. Our analysis utilizes a blend of techniques related to
concentration, projection-based conditioning, and Gaussian equivalence that are
of independent interest. By determining the conditions necessary for learning
and specialization, our results highlight the interaction between batch size
and number of iterations, and lead to a hierarchical depiction where learning
performance exhibits a stairway to accuracy over time and batch size, shedding
new light on feature learning in neural networks.
- Abstract(参考訳): 本研究では,浅層ニューラルネットワークの学習ダイナミクスについて検討し,多数のバッチ勾配降下ステップがカーネルレジームを超えて機能学習を容易にする条件について検討した。
バッチサイズと複数の(しかし、有限個の)ステップの影響を比較する。
単一ステップのプロセスの解析では,バッチサイズが$n = O(d)$で機能学習が可能であるのに対して,単一方向や単一インデックスモデルを学ぶのに十分であることがわかった。
対照的に、$n = O(d^2)$ は複数の方向の学習と特殊化に不可欠である。
さらに,最初の $\ell$ hermite 係数を持たない ``hard'' 方向は観測されず,勾配降下によって捕獲されるには $n = o(d^\ell)$ のバッチサイズを必要とすることを示した。
いくつかのステップを繰り返すと、シナリオが変わる: $n = o(d)$ のバッチサイズは、ヘルマイトベースで線形に接続された部分空間にまたがる新たなターゲット方向を学習するのに十分である。
本分析では, 濃度, 投射に基づく条件付け, ガウス同値など, 独立した興味を持つ手法を併用する。
学習と専門化に必要な条件を決定することで、バッチサイズとイテレーション数との相互作用を強調し、学習性能が時間とバッチサイズにおける精度の階段を示し、ニューラルネットワークにおける特徴学習に新たな光を当てる階層的描写へと導く。
関連論文リスト
- Unified Gradient-Based Machine Unlearning with Remain Geometry Enhancement [29.675650285351768]
深層ニューラルネットワークのプライバシーと信頼性を高めるために、機械学習(MU)が登場した。
近似MUは大規模モデルの実用的手法である。
本稿では,最新の学習方向を暗黙的に近似する高速スローパラメータ更新手法を提案する。
論文 参考訳(メタデータ) (2024-09-29T15:17:33Z) - Online Learning and Information Exponents: On The Importance of Batch size, and Time/Complexity Tradeoffs [24.305423716384272]
我々は,1パス勾配勾配(SGD)を有する2層ニューラルネットワークの繰り返し時間に対するバッチサイズの影響について検討した。
大規模なバッチで勾配更新を行うことで、サンプル全体の複雑さを変えることなく、トレーニング時間を最小化できることが示される。
低次元常微分方程式(ODE)のシステムにより、トレーニングの進捗を追跡できることを示す。
論文 参考訳(メタデータ) (2024-06-04T09:44:49Z) - Fundamental computational limits of weak learnability in high-dimensional multi-index models [30.501140910531017]
本稿では, 1次反復アルゴリズムを用いて低次元構造を弱めに復元するために必要な最小サンプル複雑性に着目した。
i) 自明な部分空間が任意の$alpha!>!0$; (ii) 自明な部分空間が空であれば、簡単な部分空間の存在に必要な必要十分条件を提供する。
限定的だが興味深い厳密な方向の集合において、-パリティ問題に似て-$alpha_c$が見つかる
論文 参考訳(メタデータ) (2024-05-24T11:59:02Z) - Step-size Optimization for Continual Learning [5.834516080130717]
継続的な学習では、学習者は生涯にわたってデータから学び続けなければならない。
ニューラルネットワークでは、ステップサイズのベクトルを使用して、サンプルがネットワーク重みを変化させる程度をスケールすることで、これを実装できる。
RMSPropやAdamのような一般的なアルゴリズムは、このステップサイズのベクトルに適応するために勾配、特に正規化を使用する。
論文 参考訳(メタデータ) (2024-01-30T19:35:43Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Neural Networks can Learn Representations with Gradient Descent [68.95262816363288]
特定の状況下では、勾配降下によって訓練されたニューラルネットワークは、カーネルメソッドのように振る舞う。
実際には、ニューラルネットワークが関連するカーネルを強く上回ることが知られている。
論文 参考訳(メタデータ) (2022-06-30T09:24:02Z) - High-dimensional Asymptotics of Feature Learning: How One Gradient Step
Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。
我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文 参考訳(メタデータ) (2022-05-03T12:09:59Z) - Learning to Accelerate by the Methods of Step-size Planning [11.65690857661528]
勾配降下は不条件問題や非次元問題に対して収束するのが遅い。
ステップサイズ適応は加速の重要な手法である。
我々は,Nesterovの加速速度の収束率を超えることができることを示す。
論文 参考訳(メタデータ) (2022-04-01T19:59:40Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z) - Multi-task Supervised Learning via Cross-learning [102.64082402388192]
我々は,様々なタスクを解くことを目的とした回帰関数の集合を適合させることで,マルチタスク学習と呼ばれる問題を考える。
我々の新しい定式化では、これらの関数のパラメータを2つに分けて、互いに近づきながらタスク固有のドメインで学習する。
これにより、異なるドメインにまたがって収集されたデータが、互いのタスクにおける学習パフォーマンスを改善するのに役立つ、クロス・ファーティライズが促進される。
論文 参考訳(メタデータ) (2020-10-24T21:35:57Z) - Backward Feature Correction: How Deep Learning Performs Deep
(Hierarchical) Learning [66.05472746340142]
本稿では,SGD による階層的学習 _efficiently_ と _automatically_ を学習目標として,多層ニューラルネットワークがどのように行うかを分析する。
我々は、下位機能のエラーを上位層と共にトレーニングする際に自動的に修正できる"後方特徴補正"と呼ばれる新しい原則を確立する。
論文 参考訳(メタデータ) (2020-01-13T17:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。