論文の概要: Learning Mixture Density via Natural Gradient Expectation Maximization
- arxiv url: http://arxiv.org/abs/2602.10602v1
- Date: Wed, 11 Feb 2026 07:46:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.546113
- Title: Learning Mixture Density via Natural Gradient Expectation Maximization
- Title(参考訳): 自然勾配予測最大化による混合密度の学習
- Authors: Yutao Chen, Jasmine Bayrooti, Steven Morad,
- Abstract要約: 情報幾何を統合することで混合密度ネットワークの最適化を改善する。
具体的には,混合密度ネットワークを潜在勾配変数モデルとして解釈し,解析する。
そして、このような接続を利用して自然予測(nGEM)の目的を導出する。
- 参考スコア(独自算出の注目度): 8.190692685900823
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture density networks are neural networks that produce Gaussian mixtures to represent continuous multimodal conditional densities. Standard training procedures involve maximum likelihood estimation using the negative log-likelihood (NLL) objective, which suffers from slow convergence and mode collapse. In this work, we improve the optimization of mixture density networks by integrating their information geometry. Specifically, we interpret mixture density networks as deep latent-variable models and analyze them through an expectation maximization framework, which reveals surprising theoretical connections to natural gradient descent. We then exploit such connections to derive the natural gradient expectation maximization (nGEM) objective. We show that empirically nGEM achieves up to 10$\times$ faster convergence while adding almost zerocomputational overhead, and scales well to high-dimensional data where NLL otherwise fails.
- Abstract(参考訳): 混合密度ネットワークは、連続したマルチモーダル条件密度を表すガウス混合を生成するニューラルネットワークである。
標準トレーニング手順は、低収束とモード崩壊に苦しむ負の対数類似度(NLL)目標を用いた最大推定を含む。
本研究では,混合密度ネットワークの最適化を,情報幾何の統合により改善する。
具体的には,混合密度ネットワークを深層潜伏変数モデルとして解釈し,予測最大化フレームワークを用いて解析し,自然勾配降下に対する驚くべき理論的関係を明らかにする。
そして、このような接続を利用して自然勾配予測最大化(nGEM)の目的を導出する。
実験により nGEM が最大 10$\times$ の高速収束を実現し,計算オーバーヘッドをほとんどゼロにし,NLL が失敗する高次元データに十分スケール可能であることを示す。
関連論文リスト
- Mathematical Modeling and Convergence Analysis of Deep Neural Networks with Dense Layer Connectivities in Deep Learning [1.5516092077598485]
ディープラーニングでは、ディープニューラルネットワーク(DNN)において、高密度層接続が重要な設計原則となっている。
本研究では, 密結合DNNを数学的にモデル化し, 深層限界における学習問題を解析する。
論文 参考訳(メタデータ) (2025-10-02T14:22:51Z) - CINDES: Classification induced neural density estimator and simulator [12.535369125849302]
本稿では, 実装が容易で適応性の高い構造に依存しないニューラル密度推定器を提案する。
提案した推定器は自然に生成型サンプリングパイプラインに統合されることを示す。
我々は、広範囲なシミュレーションと実データアプリケーションを通して、その性能を検証する。
論文 参考訳(メタデータ) (2025-10-01T00:21:37Z) - Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。
非滑らかな正規化はしばしば機械学習タスクに組み込まれる。
本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T08:32:25Z) - A Fokker-Planck-Based Loss Function that Bridges Dynamics with Density Estimation [1.8434042562191815]
力学系モデルと確率密度関数を結びつけるフォッカー・プランク方程式から新しい損失関数を導出する。
密度推定のために,正規化フローモデルとガウス混合モデルを統合する密度推定器を提案する。
これは、最大可能性とスコアマッチングを含む、さまざまなデータベースのトレーニング手法と互換性がある。
論文 参考訳(メタデータ) (2025-02-24T22:27:25Z) - The Convex Landscape of Neural Networks: Characterizing Global Optima
and Stationary Points via Lasso Models [75.33431791218302]
ディープニューラルネットワーク(DNN)モデルは、プログラミング目的に使用される。
本稿では,凸型神経回復モデルについて検討する。
定常的非次元目的物はすべて,グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
また, 静止非次元目的物はすべて, グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
論文 参考訳(メタデータ) (2023-12-19T23:04:56Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - Deep Architecture Connectivity Matters for Its Convergence: A
Fine-Grained Analysis [94.64007376939735]
我々は、勾配降下訓練におけるディープニューラルネットワーク(DNN)の収束に対する接続パターンの影響を理論的に特徴づける。
接続パターンの単純なフィルタリングによって、評価対象のモデルの数を削減できることが示される。
論文 参考訳(メタデータ) (2022-05-11T17:43:54Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Investigating maximum likelihood based training of infinite mixtures for
uncertainty quantification [16.30200782698554]
変分推論の代わりに最大極大法を用いて無限混合分布を訓練する効果について検討する。
提案手法は, 予測分散が増大し, 敵ネットワークに繋がることがわかった。
論文 参考訳(メタデータ) (2020-08-07T14:55:53Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。