論文の概要: How Two-Layer Neural Networks Learn, One (Giant) Step at a Time
- arxiv url: http://arxiv.org/abs/2305.18270v4
- Date: Tue, 03 Jun 2025 19:12:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:13.753897
- Title: How Two-Layer Neural Networks Learn, One (Giant) Step at a Time
- Title(参考訳): 2層ニューラルネットワークの学習方法
- Authors: Yatin Dandi, Florent Krzakala, Bruno Loureiro, Luca Pesce, Ludovic Stephan,
- Abstract要約: 本研究では、2層ニューラルネットワークの特徴がターゲット関数の構造にどのように適応するかを理論的に検討する。
バッチサイズが$n = MathcalO(d)$で、階段の性質を満たす複数の目標方向を学習するのに十分であることを示す。
- 参考スコア(独自算出の注目度): 23.380148043514215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For high-dimensional Gaussian data, we investigate theoretically how the features of a two-layer neural network adapt to the structure of the target function through a few large batch gradient descent steps, leading to an improvement in the approximation capacity from initialization. First, we compare the influence of batch size to that of multiple steps. For a single step, a batch of size $n = \mathcal{O}(d)$ is both necessary and sufficient to align with the target function, although only a single direction can be learned. In contrast, $n = \mathcal{O}(d^2)$ is essential for neurons to specialize in multiple relevant directions of the target with a single gradient step. Even in this case, we show there might exist ``hard'' directions requiring $n = \mathcal{O}(d^\ell)$ samples to be learned, where $\ell$ is known as the leap index of the target. Second, we show that the picture drastically improves over multiple gradient steps: a batch size of $n = \mathcal{O}(d)$ is indeed sufficient to learn multiple target directions satisfying a staircase property, where more and more directions can be learned over time. Finally, we discuss how these directions allow for a drastic improvement in the approximation capacity and generalization error over the initialization, illustrating a separation of scale between the random features/lazy regime and the feature learning regime. Our technical analysis leverages a combination of techniques related to concentration, projection-based conditioning, and Gaussian equivalence, which we believe are of independent interest. By pinning down the conditions necessary for specialization and learning, our results highlight the intertwined role of the structure of the task to learn, the details of the algorithm, and the architecture, shedding new light on how neural networks adapt to the feature and learn complex task from data over time.
- Abstract(参考訳): 高次元ガウスデータに対し、2層ニューラルネットワークの特徴がいくつかの大きなバッチ勾配勾配ステップを通してターゲット関数の構造にどのように適応するかを理論的に検討し、初期化による近似能力の向上につながった。
まず、バッチサイズの影響を複数のステップの影響と比較する。
単一のステップで、$n = \mathcal{O}(d)$のバッチは、単一の方向しか学べないが、ターゲット関数と整合するのに必要で十分である。
対照的に、$n = \mathcal{O}(d^2)$ は単一の勾配ステップで標的の複数の関連方向を専門化するニューロンにとって必須である。
この場合でさえ、学習するために$n = \mathcal{O}(d^\ell)$サンプルを必要とする ``hard'' の方向が存在し、$\ell$はターゲットの跳躍指数として知られている。
第二に、この図は複数の勾配ステップを大幅に改善することを示す:$n = \mathcal{O}(d)$のバッチサイズは、階段の特性を満たす複数の目標方向を学習するのに十分である。
最後に、これらの方向が初期化に対する近似能力と一般化誤差を大幅に改善し、ランダムな特徴/遅延状態と特徴学習体制とのスケールの分離を図っているかについて議論する。
我々の技術分析は、集中度、射影に基づく条件付け、ガウス同値性(ガウス同値性)に関連する技術の組み合わせを活用している。
特殊化と学習に必要な条件をピン留めすることで、学習すべきタスクの構造、アルゴリズムの詳細、アーキテクチャの相互の役割を強調し、ニューラルネットワークが機能にどのように適応し、時間とともにデータから複雑なタスクを学ぶか、という新たな光を隠蔽する。
関連論文リスト
- Unified Gradient-Based Machine Unlearning with Remain Geometry Enhancement [29.675650285351768]
深層ニューラルネットワークのプライバシーと信頼性を高めるために、機械学習(MU)が登場した。
近似MUは大規模モデルの実用的手法である。
本稿では,最新の学習方向を暗黙的に近似する高速スローパラメータ更新手法を提案する。
論文 参考訳(メタデータ) (2024-09-29T15:17:33Z) - Online Learning and Information Exponents: On The Importance of Batch size, and Time/Complexity Tradeoffs [24.305423716384272]
我々は,1パス勾配勾配(SGD)を有する2層ニューラルネットワークの繰り返し時間に対するバッチサイズの影響について検討した。
大規模なバッチで勾配更新を行うことで、サンプル全体の複雑さを変えることなく、トレーニング時間を最小化できることが示される。
低次元常微分方程式(ODE)のシステムにより、トレーニングの進捗を追跡できることを示す。
論文 参考訳(メタデータ) (2024-06-04T09:44:49Z) - Fundamental computational limits of weak learnability in high-dimensional multi-index models [30.501140910531017]
本稿では, 1次反復アルゴリズムを用いて低次元構造を弱めに復元するために必要な最小サンプル複雑性に着目した。
i) 自明な部分空間が任意の$alpha!>!0$; (ii) 自明な部分空間が空であれば、簡単な部分空間の存在に必要な必要十分条件を提供する。
限定的だが興味深い厳密な方向の集合において、-パリティ問題に似て-$alpha_c$が見つかる
論文 参考訳(メタデータ) (2024-05-24T11:59:02Z) - Step-size Optimization for Continual Learning [5.834516080130717]
継続的な学習では、学習者は生涯にわたってデータから学び続けなければならない。
ニューラルネットワークでは、ステップサイズのベクトルを使用して、サンプルがネットワーク重みを変化させる程度をスケールすることで、これを実装できる。
RMSPropやAdamのような一般的なアルゴリズムは、このステップサイズのベクトルに適応するために勾配、特に正規化を使用する。
論文 参考訳(メタデータ) (2024-01-30T19:35:43Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Neural Networks can Learn Representations with Gradient Descent [68.95262816363288]
特定の状況下では、勾配降下によって訓練されたニューラルネットワークは、カーネルメソッドのように振る舞う。
実際には、ニューラルネットワークが関連するカーネルを強く上回ることが知られている。
論文 参考訳(メタデータ) (2022-06-30T09:24:02Z) - High-dimensional Asymptotics of Feature Learning: How One Gradient Step
Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。
我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文 参考訳(メタデータ) (2022-05-03T12:09:59Z) - Learning to Accelerate by the Methods of Step-size Planning [11.65690857661528]
勾配降下は不条件問題や非次元問題に対して収束するのが遅い。
ステップサイズ適応は加速の重要な手法である。
我々は,Nesterovの加速速度の収束率を超えることができることを示す。
論文 参考訳(メタデータ) (2022-04-01T19:59:40Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z) - Multi-task Supervised Learning via Cross-learning [102.64082402388192]
我々は,様々なタスクを解くことを目的とした回帰関数の集合を適合させることで,マルチタスク学習と呼ばれる問題を考える。
我々の新しい定式化では、これらの関数のパラメータを2つに分けて、互いに近づきながらタスク固有のドメインで学習する。
これにより、異なるドメインにまたがって収集されたデータが、互いのタスクにおける学習パフォーマンスを改善するのに役立つ、クロス・ファーティライズが促進される。
論文 参考訳(メタデータ) (2020-10-24T21:35:57Z) - Backward Feature Correction: How Deep Learning Performs Deep
(Hierarchical) Learning [66.05472746340142]
本稿では,SGD による階層的学習 _efficiently_ と _automatically_ を学習目標として,多層ニューラルネットワークがどのように行うかを分析する。
我々は、下位機能のエラーを上位層と共にトレーニングする際に自動的に修正できる"後方特徴補正"と呼ばれる新しい原則を確立する。
論文 参考訳(メタデータ) (2020-01-13T17:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。