論文の概要: How Two-Layer Neural Networks Learn, One (Giant) Step at a Time
- arxiv url: http://arxiv.org/abs/2305.18270v3
- Date: Fri, 15 Dec 2023 22:10:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 20:58:25.456281
- Title: How Two-Layer Neural Networks Learn, One (Giant) Step at a Time
- Title(参考訳): 2層ニューラルネットワークの学習方法
- Authors: Yatin Dandi, Florent Krzakala, Bruno Loureiro, Luca Pesce, Ludovic
Stephan
- Abstract要約: 本研究では、2層ニューラルネットワークの特徴がターゲット関数の構造にどのように適応するかを理論的に検討する。
バッチサイズと複数の(しかし、有限個の)ステップの影響を比較する。
我々は、$n = MathcalO(d)$のバッチサイズが、階段の性質を満たす複数の目標方向を学習するのに十分であることを示す。
- 参考スコア(独自算出の注目度): 24.773974771715956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate theoretically how the features of a two-layer neural network
adapt to the structure of the target function through a few large batch
gradient descent steps, leading to improvement in the approximation capacity
with respect to the initialization. We compare the influence of batch size and
that of multiple (but finitely many) steps. For a single gradient step, a batch
of size $n = \mathcal{O}(d)$ is both necessary and sufficient to align with the
target function, although only a single direction can be learned. In contrast,
$n = \mathcal{O}(d^2)$ is essential for neurons to specialize to multiple
relevant directions of the target with a single gradient step. Even in this
case, we show there might exist ``hard'' directions requiring $n =
\mathcal{O}(d^\ell)$ samples to be learned, where $\ell$ is known as the leap
index of the target. The picture drastically improves over multiple gradient
steps: we show that a batch-size of $n = \mathcal{O}(d)$ is indeed enough to
learn multiple target directions satisfying a staircase property, where more
and more directions can be learned over time. Finally, we discuss how these
directions allows to drastically improve the approximation capacity and
generalization error over the initialization, illustrating a separation of
scale between the random features/lazy regime, and the feature learning regime.
Our technical analysis leverages a combination of techniques related to
concentration, projection-based conditioning, and Gaussian equivalence which we
believe are of independent interest. By pinning down the conditions necessary
for specialization and learning, our results highlight the interaction between
batch size and number of iterations, and lead to a hierarchical depiction where
learning performance exhibits a stairway to accuracy over time and batch size,
shedding new light on how neural networks adapt to features of the data.
- Abstract(参考訳): 本研究では,2層ニューラルネットワークの特徴がターゲット関数の構造にどのように適応するかを,いくつかのバッチ勾配降下ステップを通じて理論的に検討し,初期化に関する近似容量の改善に繋がる。
バッチサイズと複数の(しかし、有限個の)ステップの影響を比較する。
単一の勾配ステップでは、サイズ$n = \mathcal{O}(d)$のバッチは、単一の方向しか学べないが、ターゲット関数と整合するのに必要で十分である。
対照的に、$n = \mathcal{O}(d^2)$は単一の勾配ステップで標的の複数の関連方向を専門化するニューロンにとって必須である。
この場合でさえ、$n = \mathcal{o}(d^\ell)$ のサンプルを必要とする ``hard''' 方向が存在する可能性を示し、ここで$\ell$ は目標の leap index として知られている。
図は、複数の勾配ステップを大幅に改善する:$n = \mathcal{O}(d)$のバッチサイズは、階段の特性を満たす複数の目標方向を学習するのに十分であることを示す。
最後に、これらの方向が初期化に対する近似容量と一般化誤差を劇的に改善し、ランダム特徴/遅延レジームと特徴学習レジーム間のスケールの分離を示す。
技術分析では, 濃度, 投影型条件づけ, ガウス同値に関する手法を組み合わせることで, それぞれが独立に関心を持つと考えられる。
特殊化と学習に必要な条件をピン留めすることで、我々はバッチサイズと反復回数の相互作用を強調し、学習性能が時間とバッチサイズとともに正確性を示す階層的な描写をもたらし、ニューラルネットワークがデータの特徴にどのように適応するかを新たな光を当てる。
関連論文リスト
- Step-size Optimization for Continual Learning [5.834516080130717]
継続的な学習では、学習者は生涯にわたってデータから学び続けなければならない。
ニューラルネットワークでは、ステップサイズのベクトルを使用して、サンプルがネットワーク重みを変化させる程度をスケールすることで、これを実装できる。
RMSPropやAdamのような一般的なアルゴリズムは、このステップサイズのベクトルに適応するために勾配、特に正規化を使用する。
論文 参考訳(メタデータ) (2024-01-30T19:35:43Z) - Cramer Type Distances for Learning Gaussian Mixture Models by Gradient
Descent [0.0]
今日まで、ガウス混合モデルに適合または学習できる既知のアルゴリズムはほとんどない。
一般多変量GMM学習のためのスライスクラマー2距離関数を提案する。
これらの機能は、分散強化学習とディープQネットワークに特に有用である。
論文 参考訳(メタデータ) (2023-07-13T13:43:02Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - AMS-Net: Adaptive Multiscale Sparse Neural Network with Interpretable
Basis Expansion for Multiphase Flow Problems [8.991619150027267]
本研究では、物理過程の学習に応用可能な適応スパース学習アルゴリズムを提案し、大きなスナップショット空間を与えられた解のスパース表現を得る。
基本関数の情報は損失関数に組み込まれており、複数の時間ステップにおけるダウンスケール縮小次数解と参照解との差を最小限に抑える。
複雑なアプリケーションにおける提案手法の有効性と解釈性を示すため, 2相多相流問題に対してより数値的な実験を行った。
論文 参考訳(メタデータ) (2022-07-24T13:12:43Z) - Neural Networks can Learn Representations with Gradient Descent [68.95262816363288]
特定の状況下では、勾配降下によって訓練されたニューラルネットワークは、カーネルメソッドのように振る舞う。
実際には、ニューラルネットワークが関連するカーネルを強く上回ることが知られている。
論文 参考訳(メタデータ) (2022-06-30T09:24:02Z) - High-dimensional Asymptotics of Feature Learning: How One Gradient Step
Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。
我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文 参考訳(メタデータ) (2022-05-03T12:09:59Z) - Learning to Accelerate by the Methods of Step-size Planning [11.65690857661528]
勾配降下は不条件問題や非次元問題に対して収束するのが遅い。
ステップサイズ適応は加速の重要な手法である。
我々は,Nesterovの加速速度の収束率を超えることができることを示す。
論文 参考訳(メタデータ) (2022-04-01T19:59:40Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z) - Multi-task Supervised Learning via Cross-learning [102.64082402388192]
我々は,様々なタスクを解くことを目的とした回帰関数の集合を適合させることで,マルチタスク学習と呼ばれる問題を考える。
我々の新しい定式化では、これらの関数のパラメータを2つに分けて、互いに近づきながらタスク固有のドメインで学習する。
これにより、異なるドメインにまたがって収集されたデータが、互いのタスクにおける学習パフォーマンスを改善するのに役立つ、クロス・ファーティライズが促進される。
論文 参考訳(メタデータ) (2020-10-24T21:35:57Z) - Backward Feature Correction: How Deep Learning Performs Deep
(Hierarchical) Learning [66.05472746340142]
本稿では,SGD による階層的学習 _efficiently_ と _automatically_ を学習目標として,多層ニューラルネットワークがどのように行うかを分析する。
我々は、下位機能のエラーを上位層と共にトレーニングする際に自動的に修正できる"後方特徴補正"と呼ばれる新しい原則を確立する。
論文 参考訳(メタデータ) (2020-01-13T17:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。