論文の概要: Gaussian mixture layers for neural networks
- arxiv url: http://arxiv.org/abs/2508.04883v1
- Date: Wed, 06 Aug 2025 21:16:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.644239
- Title: Gaussian mixture layers for neural networks
- Title(参考訳): ニューラルネットワークのためのガウス混合層
- Authors: Sinho Chewi, Philippe Rigollet, Yuling Yan,
- Abstract要約: 2層ニューラルネットワークの平均場理論は、パラメータ空間上の確率測度によって線形にパラメータ化される無限に広いネットワークを考える。
この非パラメトリックな視点は、ニューラルネットワークの理論的理解と概念的理解の両方を大きく前進させた。
本研究は,確率測度上で動的に実施できるかどうかを考察する。
- 参考スコア(独自算出の注目度): 14.707634995360591
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The mean-field theory for two-layer neural networks considers infinitely wide networks that are linearly parameterized by a probability measure over the parameter space. This nonparametric perspective has significantly advanced both the theoretical and conceptual understanding of neural networks, with substantial efforts made to validate its applicability to networks of moderate width. In this work, we explore the opposite direction, investigating whether dynamics can be directly implemented over probability measures. Specifically, we employ Gaussian mixture models as a flexible and expressive parametric family of distributions together with the theory of Wasserstein gradient flows to derive training dynamics for such measures. Our approach introduces a new type of layer -- the Gaussian mixture (GM) layer -- that can be integrated into neural network architectures. As a proof of concept, we validate our proposal through experiments on simple classification tasks, where a GM layer achieves test performance comparable to that of a two-layer fully connected network. Furthermore, we examine the behavior of these dynamics and demonstrate numerically that GM layers exhibit markedly different behavior compared to classical fully connected layers, even when the latter are large enough to be considered in the mean-field regime.
- Abstract(参考訳): 2層ニューラルネットワークの平均場理論は、パラメータ空間上の確率測度によって線形にパラメータ化される無限に広いネットワークを考える。
この非パラメトリックな視点は、ニューラルネットワークの理論的理解と概念的理解の両方を大きく前進させ、その適度な幅のネットワークへの適用性を検証するためにかなりの努力を払っている。
本研究では,その逆の方向を探索し,力学が確率測上で直接実施できるかどうかを考察する。
具体的には、フレキシブルで表現力のあるパラメトリックな分布の族としてガウス混合モデルと、ワッサーシュタイン勾配流の理論を用いて、そのような測度に対するトレーニング力学を導出する。
このアプローチでは,ニューラルネットワークアーキテクチャに統合可能な,新たなタイプのレイヤ – ガウス混合(GM)層 – を導入しています。
概念実証として,GM層が2層完全連結ネットワークに匹敵するテスト性能を達成するための,単純な分類タスクの実験を通じて提案手法を検証した。
さらに,これらのダイナミクスの挙動を考察し,GM層が平均場状態において考慮できるほど大きい場合であっても,GM層が古典的な完全連結層とは大きく異なる挙動を示すことを示す。
関連論文リスト
- Precise gradient descent training dynamics for finite-width multi-layer neural networks [8.057006406834466]
一般多層ニューラルネットワークにおける勾配降下繰り返しの正確な分布解析を行った。
我々の非漸近状態進化理論は、第一層重みのガウス的ゆらぎと深層重みの集中を捉えている。
論文 参考訳(メタデータ) (2025-05-08T02:19:39Z) - Approximating Latent Manifolds in Neural Networks via Vanishing Ideals [20.464009622419766]
我々は, 無限イデアルがディープネットワークの潜在多様体をいかに特徴付けるかを示すことによって, 多様体学習と計算代数学の関連性を確立する。
本稿では,中間層で事前学習されたネットワークを切断し,消滅するイデアルのジェネレータを介して各クラス多様体を近似するニューラルアーキテクチャを提案する。
得られたモデルは、トレーニング済みのベースラインよりも著しく少ないが、同等の精度を維持し、高いスループットを実現し、パラメータが少ない。
論文 参考訳(メタデータ) (2025-02-20T21:23:02Z) - Enhancing lattice kinetic schemes for fluid dynamics with Lattice-Equivariant Neural Networks [79.16635054977068]
我々はLattice-Equivariant Neural Networks (LENNs)と呼ばれる新しい同変ニューラルネットワークのクラスを提案する。
我々の手法は、ニューラルネットワークに基づく代理モデルLattice Boltzmann衝突作用素の学習を目的とした、最近導入されたフレームワーク内で開発されている。
本研究は,実世界のシミュレーションにおける機械学習強化Lattice Boltzmann CFDの実用化に向けて展開する。
論文 参考訳(メタデータ) (2024-05-22T17:23:15Z) - Wide Neural Networks as Gaussian Processes: Lessons from Deep
Equilibrium Models [16.07760622196666]
本研究では,層間における共有重み行列を持つ無限深度ニューラルネットワークであるDeep equilibrium Model (DEQ)について検討する。
解析により,DEC層の幅が無限大に近づくにつれ,ガウス過程に収束することが明らかとなった。
注目すべきは、この収束は深さと幅の限界が交換されても成り立つことである。
論文 参考訳(メタデータ) (2023-10-16T19:00:43Z) - Information Bottleneck Analysis of Deep Neural Networks via Lossy Compression [37.69303106863453]
Information Bottleneck(IB)原則は、ディープニューラルネットワーク(DNN)のトレーニングプロセスを分析するための情報理論フレームワークを提供する。
本稿では,一般NNのICB解析を行うためのフレームワークを提案する。
また,MI力学の新たな特徴を明らかにするため,実規模に近いISB解析を行う。
論文 参考訳(メタデータ) (2023-05-13T21:44:32Z) - WLD-Reg: A Data-dependent Within-layer Diversity Regularizer [98.78384185493624]
ニューラルネットワークは、勾配に基づく最適化と共同で訓練された階層構造に配置された複数の層で構成されている。
我々は、この従来の「中間層」フィードバックを補うために、同じ層内での活性化の多様性を促進するために、追加の「中間層」フィードバックを補うことを提案する。
本稿では,提案手法が複数のタスクにおける最先端ニューラルネットワークモデルの性能を向上させることを実証した広範な実証研究を提案する。
論文 参考訳(メタデータ) (2023-01-03T20:57:22Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Deep Architecture Connectivity Matters for Its Convergence: A
Fine-Grained Analysis [94.64007376939735]
我々は、勾配降下訓練におけるディープニューラルネットワーク(DNN)の収束に対する接続パターンの影響を理論的に特徴づける。
接続パターンの単純なフィルタリングによって、評価対象のモデルの数を削減できることが示される。
論文 参考訳(メタデータ) (2022-05-11T17:43:54Z) - A new perspective on probabilistic image modeling [92.89846887298852]
本稿では,密度推定,サンプリング,トラクタブル推論が可能な画像モデリングのための新しい確率論的手法を提案する。
DCGMMは、CNNのように、ランダムな初期条件からSGDによってエンドツーエンドに訓練することができる。
本研究は,近年のPCおよびSPNモデルと,推論,分類,サンプリングの観点から比較した。
論文 参考訳(メタデータ) (2022-03-21T14:53:57Z) - The Principles of Deep Learning Theory [19.33681537640272]
この本は、実践的妥当性の深いニューラルネットワークを理解するための効果的な理論アプローチを開発する。
これらのネットワークがトレーニングから非自明な表現を効果的に学習する方法について説明する。
トレーニングネットワークのアンサンブルの有効モデル複雑性を,奥行き比が支配していることを示す。
論文 参考訳(メタデータ) (2021-06-18T15:00:00Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z) - Implicit Bias of Gradient Descent for Wide Two-layer Neural Networks
Trained with the Logistic Loss [0.0]
勾配に基づく手法によるロジスティック(クロスエントロピー)損失を最小限に抑えるために訓練されたニューラルネットワークは、多くの教師付き分類タスクでうまく機能する。
我々は、均一な活性化を伴う無限に広い2層ニューラルネットワークのトレーニングと一般化の挙動を解析する。
論文 参考訳(メタデータ) (2020-02-11T15:42:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。