論文の概要: Asymptotic Analysis of Two-Layer Neural Networks after One Gradient Step under Gaussian Mixtures Data with Structure
- arxiv url: http://arxiv.org/abs/2503.00856v2
- Date: Sat, 15 Mar 2025 10:54:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:35:44.086993
- Title: Asymptotic Analysis of Two-Layer Neural Networks after One Gradient Step under Gaussian Mixtures Data with Structure
- Title(参考訳): 構造を持つガウス混合データに基づく1ステップ後の2層ニューラルネットワークの漸近解析
- Authors: Samet Demir, Zafer Dogan,
- Abstract要約: 本研究では,構造データに基づく2層ニューラルネットワーク(NN)の学習と一般化性能について検討した。
特定の条件下では,高次モデルが非線形ニューラルネットワークと等価であることを示す。
- 参考スコア(独自算出の注目度): 0.8287206589886879
- License:
- Abstract: In this work, we study the training and generalization performance of two-layer neural networks (NNs) after one gradient descent step under structured data modeled by Gaussian mixtures. While previous research has extensively analyzed this model under isotropic data assumption, such simplifications overlook the complexities inherent in real-world datasets. Our work addresses this limitation by analyzing two-layer NNs under Gaussian mixture data assumption in the asymptotically proportional limit, where the input dimension, number of hidden neurons, and sample size grow with finite ratios. We characterize the training and generalization errors by leveraging recent advancements in Gaussian universality. Specifically, we prove that a high-order polynomial model performs equivalent to the nonlinear neural networks under certain conditions. The degree of the equivalent model is intricately linked to both the "data spread" and the learning rate employed during one gradient step. Through extensive simulations, we demonstrate the equivalence between the original model and its polynomial counterpart across various regression and classification tasks. Additionally, we explore how different properties of Gaussian mixtures affect learning outcomes. Finally, we illustrate experimental results on Fashion-MNIST classification, indicating that our findings can translate to realistic data.
- Abstract(参考訳): 本研究では,ガウス混合モデルに基づく構造データの下で,2層ニューラルネットワーク(NN)の勾配降下後のトレーニングと一般化性能について検討する。
これまでの研究では、このモデルを等方的データ仮定の下で広範囲に分析してきたが、そのような単純化は現実世界のデータセットに固有の複雑さを見落としている。
本研究は, 入力次元, 隠れニューロン数, サンプルサイズが有限比で増大する漸近的比例極限において, ガウス混合データ仮定の下で2層NNを解析することにより, この制限に対処する。
ガウス普遍性の最近の進歩を活用して、トレーニングと一般化の誤りを特徴づける。
具体的には、高次多項式モデルが特定の条件下で非線形ニューラルネットワークと等価であることを示す。
等価モデルの度合いは、"データスプレッド"と1つの勾配ステップで使用される学習率の両方に複雑に関連付けられる。
広範囲なシミュレーションを通じて、元のモデルとその多項式が様々な回帰および分類タスクで等価であることを示す。
さらに、ガウス混合の異なる性質が学習結果にどのように影響するかを考察する。
最後に,Fashion-MNIST分類に関する実験結果について述べる。
関連論文リスト
- Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - The twin peaks of learning neural networks [3.382017614888546]
近年の研究では、ニューラルネットワークの一般化誤差に対する二重発光現象の存在が示されている。
この現象とニューラルネットワークで表される関数の複雑さと感度の増大との関係について検討する。
論文 参考訳(メタデータ) (2024-01-23T10:09:14Z) - Towards Convergence Rates for Parameter Estimation in Gaussian-gated
Mixture of Experts [40.24720443257405]
ガウスゲートMOEモデルにおける最大推定値(MLE)の収束解析を行う。
以上の結果から,MLEはガウスゲーティング関数の位置パラメータの2つの相補的な設定の下で異なる挙動を示すことが明らかとなった。
特に、これらの挙動は2つの異なる方程式系の可解性によって特徴づけられる。
論文 参考訳(メタデータ) (2023-05-12T16:02:19Z) - Capturing dynamical correlations using implicit neural representations [85.66456606776552]
実験データから未知のパラメータを復元するために、モデルハミルトンのシミュレーションデータを模倣するために訓練されたニューラルネットワークと自動微分を組み合わせた人工知能フレームワークを開発する。
そこで本研究では, 実時間から多次元散乱データに適用可能な微分可能なモデルを1回だけ構築し, 訓練する能力について述べる。
論文 参考訳(メタデータ) (2023-04-08T07:55:36Z) - Homophily modulates double descent generalization in graph convolution
networks [33.703222768801574]
グラフノイズ,特徴雑音,トレーニングラベル数との相互作用によって,リスクがどのように形成されるかを示す。
我々は解析的洞察を用いて、異種データセット上での最先端グラフ畳み込みネットワークの性能を向上させる。
論文 参考訳(メタデータ) (2022-12-26T09:57:09Z) - Mixed Effects Neural ODE: A Variational Approximation for Analyzing the
Dynamics of Panel Data [50.23363975709122]
パネルデータ解析に(固定・ランダムな)混合効果を取り入れたME-NODEという確率モデルを提案する。
我々は、Wong-Zakai定理によって提供されるSDEの滑らかな近似を用いて、我々のモデルを導出できることを示す。
次に、ME-NODEのためのエビデンスに基づく下界を導出し、(効率的な)トレーニングアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-02-18T22:41:51Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - The Neural Tangent Kernel in High Dimensions: Triple Descent and a
Multi-Scale Theory of Generalization [34.235007566913396]
現代のディープラーニングモデルでは、トレーニングデータに適合するために必要なパラメータよりもはるかに多くのパラメータが採用されている。
この予期せぬ振る舞いを記述するための新たなパラダイムは、エンファンダブル降下曲線(英語版)である。
本稿では,勾配降下を伴う広帯域ニューラルネットワークの挙動を特徴付けるニューラル・タンジェント・カーネルを用いた一般化の高精度な高次元解析を行う。
論文 参考訳(メタデータ) (2020-08-15T20:55:40Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。