論文の概要: Learning High-Degree Parities: The Crucial Role of the Initialization
- arxiv url: http://arxiv.org/abs/2412.04910v1
- Date: Fri, 06 Dec 2024 10:05:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:55:37.555409
- Title: Learning High-Degree Parities: The Crucial Role of the Initialization
- Title(参考訳): ハイデグリーパリティの学習 : 初期化の危機的役割
- Authors: Emmanuel Abbe, Elisabetta Cornacchia, Jan Hązła, Donald Kougang-Yombi,
- Abstract要約: 本稿では,通常のニューラルネットワーク上での勾配勾配降下に対して,学習性は初期重み分布に依存することを示す。
ほぼ完全なパリティの正の値は$sigma=O(d-1)$とされ、よりシャープなしきい値現象に関する疑問が指摘される。
- 参考スコア(独自算出の注目度): 15.527103574584663
- License:
- Abstract: Parities have become a standard benchmark for evaluating learning algorithms. Recent works show that regular neural networks trained by gradient descent can efficiently learn degree $k$ parities on uniform inputs for constant $k$, but fail to do so when $k$ and $d-k$ grow with $d$ (here $d$ is the ambient dimension). However, the case where $k=d-O_d(1)$ (almost-full parities), including the degree $d$ parity (the full parity), has remained unsettled. This paper shows that for gradient descent on regular neural networks, learnability depends on the initial weight distribution. On one hand, the discrete Rademacher initialization enables efficient learning of almost-full parities, while on the other hand, its Gaussian perturbation with large enough constant standard deviation $\sigma$ prevents it. The positive result for almost-full parities is shown to hold up to $\sigma=O(d^{-1})$, pointing to questions about a sharper threshold phenomenon. Unlike statistical query (SQ) learning, where a singleton function class like the full parity is trivially learnable, our negative result applies to a fixed function and relies on an initial gradient alignment measure of potential broader relevance to neural networks learning.
- Abstract(参考訳): パリティは学習アルゴリズムを評価するための標準ベンチマークになっている。
最近の研究によると、勾配降下によって訓練された通常のニューラルネットワークは、一定の$k$に対して均一な入力に対して$k$パリティを効率よく学習できるが、$k$と$d-k$が$d$で成長した場合は、それを失敗する(ここで$d$は周囲の次元である)。
しかし、$k=d-O_d(1)$(ほぼ完全なパリティ)の場合には、$d$パリティ(完全なパリティ)の次数も未定のままである。
本稿では,通常のニューラルネットワーク上での勾配勾配降下に対して,学習性は初期重み分布に依存することを示す。
一方、離散ラデマッハ初期化は、ほぼ完全なパリティの効率的な学習を可能にする一方、ガウス摂動は、十分な一定の標準偏差を持つので、それを防ぐことができる。
ほぼ完全なパリティの正の結果は$\sigma=O(d^{-1})$まで保たれ、よりシャープなしきい値現象に関する質問を指し示している。
完全パリティのようなシングルトン関数クラスが自明に学習可能な統計的クエリ(SQ)学習とは異なり、私たちの負の結果は固定関数に適用され、ニューラルネットワーク学習に潜在的に広範な関連性を示す最初の勾配アライメント尺度に依存する。
関連論文リスト
- Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の勾配勾配勾配学習問題について検討する。
SGDに基づくアルゴリズムにより最適化された2層ニューラルネットワークは、情報指数に支配されない複雑さで$f_*$を学習する。
論文 参考訳(メタデータ) (2024-06-03T17:56:58Z) - Matching the Statistical Query Lower Bound for $k$-Sparse Parity Problems with Sign Stochastic Gradient Descent [83.85536329832722]
我々は、2層完全連結ニューラルネットワーク上での符号勾配降下(SGD)による$k$スパースパリティ問題を解く。
このアプローチは、$d$次元ハイパーキューブ上での$k$スパースパリティ問題を効率的に解くことができることを示す。
次に、符号SGDを持つトレーニングニューラルネットワークが、この優れたネットワークを効果的に近似し、小さな統計的誤差で$k$-parity問題を解く方法を示す。
論文 参考訳(メタデータ) (2024-04-18T17:57:53Z) - Efficiently Learning One-Hidden-Layer ReLU Networks via Schur
Polynomials [50.90125395570797]
正方形損失に関して、標準的なガウス分布の下での$k$ReLU活性化の線形結合をPAC学習する問題をmathbbRd$で検討する。
本研究の主な成果は,この学習課題に対して,サンプルおよび計算複雑性が$(dk/epsilon)O(k)$で,epsilon>0$が目標精度である。
論文 参考訳(メタデータ) (2023-07-24T14:37:22Z) - Generalization and Stability of Interpolating Neural Networks with
Minimal Width [37.908159361149835]
補間系における勾配によって訓練された浅層ニューラルネットワークの一般化と最適化について検討する。
トレーニング損失数は$m=Omega(log4 (n))$ニューロンとニューロンを最小化する。
m=Omega(log4 (n))$のニューロンと$Tapprox n$で、テスト損失のトレーニングを$tildeO (1/)$に制限します。
論文 参考訳(メタデータ) (2023-02-18T05:06:15Z) - Training Overparametrized Neural Networks in Sublinear Time [14.918404733024332]
ディープラーニングには膨大な計算とエネルギーのコストが伴う。
探索木の小さな部分集合として、二分ニューラルネットワークの新しいサブセットを示し、それぞれが探索木のサブセット(Ds)に対応する。
我々はこの見解が深層ネットワーク(Ds)の分析解析にさらに応用できると考えている。
論文 参考訳(メタデータ) (2022-08-09T02:29:42Z) - Neural Networks can Learn Representations with Gradient Descent [68.95262816363288]
特定の状況下では、勾配降下によって訓練されたニューラルネットワークは、カーネルメソッドのように振る舞う。
実際には、ニューラルネットワークが関連するカーネルを強く上回ることが知られている。
論文 参考訳(メタデータ) (2022-06-30T09:24:02Z) - A framework for overparameterized learning [0.0]
ディープニューラルネットワークの成功に関する説明は、理論的機械学習における中心的な問題である。
本稿では,多くの一般的な問題をカバーするのに十分な,プロトタイプ学習問題からなるフレームワークを提案する。
次に、教師付き学習、変分オートエンコーダ、勾配ペナルティによるトレーニングがプロトタイプ問題に変換可能であることを示す。
論文 参考訳(メタデータ) (2022-05-26T17:17:46Z) - High-dimensional Asymptotics of Feature Learning: How One Gradient Step
Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。
我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文 参考訳(メタデータ) (2022-05-03T12:09:59Z) - Locality defeats the curse of dimensionality in convolutional
teacher-student scenarios [69.2027612631023]
学習曲線指数$beta$を決定する上で,局所性が重要であることを示す。
我々は、自然の仮定を用いて、トレーニングセットのサイズに応じて減少するリッジでカーネルレグレッションを実行すると、リッジレスの場合と同じような学習曲線指数が得られることを証明して結論付けた。
論文 参考訳(メタデータ) (2021-06-16T08:27:31Z) - Statistical-Query Lower Bounds via Functional Gradients [19.5924910463796]
我々は、寛容$n- (1/epsilon)b$の統計クエリアルゴリズムは、一定の$bに対して少なくとも$2nc epsilon$クエリを使用する必要があることを示す。
実数値学習では珍しいSQ学習アルゴリズムが一般的である(相関学習とは対照的に)。
論文 参考訳(メタデータ) (2020-06-29T05:15:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。