論文の概要: On the Influence of Enforcing Model Identifiability on Learning dynamics
of Gaussian Mixture Models
- arxiv url: http://arxiv.org/abs/2206.08598v1
- Date: Fri, 17 Jun 2022 07:50:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-20 12:55:22.374920
- Title: On the Influence of Enforcing Model Identifiability on Learning dynamics
of Gaussian Mixture Models
- Title(参考訳): モデル同定性がガウス混合モデルの学習ダイナミクスに及ぼす影響について
- Authors: Pascal Mattia Esser, Frank Nielsen
- Abstract要約: 特異モデルからサブモデルを抽出する手法を提案する。
本手法はトレーニング中のモデルの識別性を強制する。
この手法がディープニューラルネットワークのようなより複雑なモデルにどのように適用できるかを示す。
- 参考スコア(独自算出の注目度): 14.759688428864159
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A common way to learn and analyze statistical models is to consider
operations in the model parameter space. But what happens if we optimize in the
parameter space and there is no one-to-one mapping between the parameter space
and the underlying statistical model space? Such cases frequently occur for
hierarchical models which include statistical mixtures or stochastic neural
networks, and these models are said to be singular. Singular models reveal
several important and well-studied problems in machine learning like the
decrease in convergence speed of learning trajectories due to attractor
behaviors. In this work, we propose a relative reparameterization technique of
the parameter space, which yields a general method for extracting regular
submodels from singular models. Our method enforces model identifiability
during training and we study the learning dynamics for gradient descent and
expectation maximization for Gaussian Mixture Models (GMMs) under relative
parameterization, showing faster experimental convergence and a improved
manifold shape of the dynamics around the singularity. Extending the analysis
beyond GMMs, we furthermore analyze the Fisher information matrix under
relative reparameterization and its influence on the generalization error, and
show how the method can be applied to more complex models like deep neural
networks.
- Abstract(参考訳): 統計モデルを学習し分析する一般的な方法は、モデルパラメータ空間での操作を考えることである。
しかし、パラメータ空間を最適化し、パラメータ空間と基礎となる統計モデル空間の間に1対1のマッピングがなければどうなるだろうか?
このようなケースは統計混合や確率的ニューラルネットワークを含む階層モデルに対してしばしば起こり、これらのモデルは特異であると言われている。
特異モデルは、アトラクタ行動による学習軌跡の収束速度の低下のような機械学習において、いくつかの重要かつよく研究された問題を明らかにする。
本研究では,パラメータ空間の相対的再パラメータ化手法を提案し,特異モデルから正規部分モデルを抽出する一般手法を提案する。
本手法は,学習中のモデル同定性を強制し,相対パラメータ化下でのガウス混合モデル(gmms)の勾配降下と期待最大化の学習ダイナミクスを検証し,実験収束の高速化と特異点周辺の力学の多様体形状の改善を示した。
さらに,本手法をgmmsを超えて拡張し,比較的再パラメータ化されたfisher情報行列と一般化誤差の影響を解析し,深層ニューラルネットワークなどのより複雑なモデルに適用できることを示す。
関連論文リスト
- SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Towards Learning Stochastic Population Models by Gradient Descent [0.0]
パラメータと構造を同時に推定することで,最適化手法に大きな課題が生じることを示す。
モデルの正確な推定を実証するが、擬似的、解釈可能なモデルの推論を強制することは、難易度を劇的に高める。
論文 参考訳(メタデータ) (2024-04-10T14:38:58Z) - Data-Driven Model Selections of Second-Order Particle Dynamics via
Integrating Gaussian Processes with Low-Dimensional Interacting Structures [0.9821874476902972]
我々は、一般の2階粒子モデルにおけるデータ駆動的な発見に焦点を当てる。
本稿では、2つの実世界の魚の動きデータセットのモデリングへの応用について述べる。
論文 参考訳(メタデータ) (2023-11-01T23:45:15Z) - Active-Learning-Driven Surrogate Modeling for Efficient Simulation of
Parametric Nonlinear Systems [0.0]
支配方程式がなければ、パラメトリック還元次代理モデルを非侵襲的に構築する必要がある。
我々の研究は、パラメータのスナップショットを効率的に表示するための非侵入的最適性基準を提供する。
カーネルベースの浅層ニューラルネットワークを用いた能動的学習駆動サロゲートモデルを提案する。
論文 参考訳(メタデータ) (2023-06-09T18:01:14Z) - Capturing dynamical correlations using implicit neural representations [85.66456606776552]
実験データから未知のパラメータを復元するために、モデルハミルトンのシミュレーションデータを模倣するために訓練されたニューラルネットワークと自動微分を組み合わせた人工知能フレームワークを開発する。
そこで本研究では, 実時間から多次元散乱データに適用可能な微分可能なモデルを1回だけ構築し, 訓練する能力について述べる。
論文 参考訳(メタデータ) (2023-04-08T07:55:36Z) - Neural Superstatistics for Bayesian Estimation of Dynamic Cognitive
Models [2.7391842773173334]
我々は,時間変化パラメータと時間不変パラメータの両方を復元できるベイズ推論のシミュレーションに基づくディープラーニング手法を開発した。
この結果から,ディープラーニングアプローチは時間的ダイナミクスを捉える上で極めて効率的であることが示唆された。
論文 参考訳(メタデータ) (2022-11-23T17:42:53Z) - On the Generalization and Adaption Performance of Causal Models [99.64022680811281]
異なる因果発見は、データ生成プロセスを一連のモジュールに分解するために提案されている。
このようなモジュラニューラル因果モデルの一般化と適応性能について検討する。
我々の分析では、モジュラーニューラル因果モデルが、低データレギュレーションにおけるゼロおよび少数ショットの適応において、他のモデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-06-09T17:12:32Z) - Dynamically-Scaled Deep Canonical Correlation Analysis [77.34726150561087]
カノニカル相関解析 (CCA) は, 2つのビューの特徴抽出手法である。
本稿では,入力依存の正準相関モデルをトレーニングするための新しい動的スケーリング手法を提案する。
論文 参考訳(メタデータ) (2022-03-23T12:52:49Z) - Mixed Effects Neural ODE: A Variational Approximation for Analyzing the
Dynamics of Panel Data [50.23363975709122]
パネルデータ解析に(固定・ランダムな)混合効果を取り入れたME-NODEという確率モデルを提案する。
我々は、Wong-Zakai定理によって提供されるSDEの滑らかな近似を用いて、我々のモデルを導出できることを示す。
次に、ME-NODEのためのエビデンスに基づく下界を導出し、(効率的な)トレーニングアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-02-18T22:41:51Z) - Towards Modeling and Resolving Singular Parameter Spaces using
Stratifolds [18.60761407945024]
学習力学において、特異点は学習軌道の引力として作用し、従ってモデルの収束速度に悪影響を及ぼす。
直交多様体を用いて特異点から生じる問題を回避するための一般的な手法を提案する。
経験的に、特異空間の代わりに滑らかな多様体近似に(自然な)勾配勾配を用いることで、魅力の振舞いを回避でき、学習における収束速度を向上できることを示す。
論文 参考訳(メタデータ) (2021-12-07T14:42:45Z) - Post-mortem on a deep learning contest: a Simpson's paradox and the
complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。
メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。
本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文 参考訳(メタデータ) (2021-06-01T19:19:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。