論文の概要: Scalable Regularised Joint Mixture Models
- arxiv url: http://arxiv.org/abs/2205.01486v1
- Date: Tue, 3 May 2022 13:38:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-04 13:37:35.521638
- Title: Scalable Regularised Joint Mixture Models
- Title(参考訳): スケーラブル正規化ジョイント混合モデル
- Authors: Thomas Lartigue, Sach Mukherjee
- Abstract要約: 多くの応用において、データは異なる基底分布を持つ潜在群にまたがるという意味で不均一である。
我々は,(i)明示的多変量特徴分布,(ii)高次元回帰モデル,(iii)潜在群ラベルの連成学習を可能にする異種データに対するアプローチを提案する。
このアプローチは明らかに高次元において有効であり、計算効率のためのデータ削減と、特徴数が大きければ鍵信号を保持する再重み付けスキームを組み合わせる。
- 参考スコア(独自算出の注目度): 2.0686407686198263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many applications, data can be heterogeneous in the sense of spanning
latent groups with different underlying distributions. When predictive models
are applied to such data the heterogeneity can affect both predictive
performance and interpretability. Building on developments at the intersection
of unsupervised learning and regularised regression, we propose an approach for
heterogeneous data that allows joint learning of (i) explicit multivariate
feature distributions, (ii) high-dimensional regression models and (iii) latent
group labels, with both (i) and (ii) specific to latent groups and both
elements informing (iii). The approach is demonstrably effective in high
dimensions, combining data reduction for computational efficiency with a
re-weighting scheme that retains key signals even when the number of features
is large. We discuss in detail these aspects and their impact on modelling and
computation, including EM convergence. The approach is modular and allows
incorporation of data reductions and high-dimensional estimators that are
suitable for specific applications. We show results from extensive simulations
and real data experiments, including highly non-Gaussian data. Our results
allow efficient, effective analysis of high-dimensional data in settings, such
as biomedicine, where both interpretable prediction and explicit feature space
models are needed but hidden heterogeneity may be a concern.
- Abstract(参考訳): 多くの応用において、データは異なる基底分布を持つ潜在群にまたがるという意味で不均一である。
このようなデータに予測モデルを適用すると、不均一性は予測性能と解釈可能性の両方に影響を及ぼす。
教師なし学習と正規化回帰の交差点における発展を基盤として,共同学習が可能な異種データへのアプローチを提案する。
(i)明示的な多変量特徴分布
(ii)高次元回帰モデル及び
(iii)両方の潜在グループラベル
(i)および
(ii)潜伏する群に特有な要素
(iii)
このアプローチは明らかに高次元において有効であり、計算効率のためのデータ削減と、特徴数が大きければ鍵信号を保持する再重み付けスキームを組み合わせる。
我々はこれらの側面と、EM収束を含むモデリングと計算への影響を詳細に論じる。
このアプローチはモジュラーであり、特定のアプリケーションに適したデータ還元と高次元推定器を組み込むことができる。
非ゲージデータを含む広範囲なシミュレーションと実データ実験の結果を示す。
その結果, バイオメディシンなどの高次元データの効率的かつ効果的な分析が可能となり, 解釈可能な予測と明示的な特徴空間モデルが必要であるが, 隠れた不均一性が懸念される可能性がある。
関連論文リスト
- Learning Divergence Fields for Shift-Robust Graph Representations [73.11818515795761]
本研究では,相互依存データに対する問題に対して,学習可能な分散場を持つ幾何学的拡散モデルを提案する。
因果推論によって新たな学習目標が導出され、ドメイン間で無神経な相互依存の一般化可能なパターンを学習するためのモデルが導出される。
論文 参考訳(メタデータ) (2024-06-07T14:29:21Z) - Joint Distributional Learning via Cramer-Wold Distance [0.7614628596146602]
高次元データセットの共分散学習を容易にするために,クレーマー-ウォルド距離正規化を導入し,クレーマー-ウォルド距離正規化法を提案する。
また、フレキシブルな事前モデリングを可能にする2段階学習手法を導入し、集約後と事前分布のアライメントを改善する。
論文 参考訳(メタデータ) (2023-10-25T05:24:23Z) - Predictive Heterogeneity: Measures and Applications [26.85283526483783]
本稿では,モデルキャパシティと計算制約を考慮した表現可能な予測不均一性を提案する。
ほぼ正しい(PAC)境界を持つ有限データから確実に推定できることを示す。
実験的に、探索された異質性は、所得予測、収量予測、画像分類タスクにおけるサブ人口区分に関する洞察を提供する。
論文 参考訳(メタデータ) (2023-04-01T12:20:06Z) - Data-IQ: Characterizing subgroups with heterogeneous outcomes in tabular
data [81.43750358586072]
本稿では,サンプルをサブグループに体系的に階層化するフレームワークであるData-IQを提案する。
実世界の4つの医療データセットに対するData-IQの利点を実験的に実証した。
論文 参考訳(メタデータ) (2022-10-24T08:57:55Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Mixed Effects Neural ODE: A Variational Approximation for Analyzing the
Dynamics of Panel Data [50.23363975709122]
パネルデータ解析に(固定・ランダムな)混合効果を取り入れたME-NODEという確率モデルを提案する。
我々は、Wong-Zakai定理によって提供されるSDEの滑らかな近似を用いて、我々のモデルを導出できることを示す。
次に、ME-NODEのためのエビデンスに基づく下界を導出し、(効率的な)トレーニングアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-02-18T22:41:51Z) - Functional Mixtures-of-Experts [0.24578723416255746]
観測対象が関数を含む状況下での予測のための異種データの統計的解析について検討する。
まず,機能的ME(FME)と呼ばれる新しいMEモデルのファミリーを提示する。
我々は,モデルに適合する最大パラメータ推定戦略を定式化したLasso-like (EM-Lasso) の専用予測-最大化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-02-04T17:32:28Z) - Optimal regularizations for data generation with probabilistic graphical
models [0.0]
経験的に、よく調和された正規化スキームは、推論されたモデルの品質を劇的に改善する。
生成的ペアワイドグラフィカルモデルの最大Aポストエリオーリ(MAP)推論におけるL2とL1の正規化について検討する。
論文 参考訳(メタデータ) (2021-12-02T14:45:16Z) - Multimodal Data Fusion in High-Dimensional Heterogeneous Datasets via
Generative Models [16.436293069942312]
我々は、教師なしの方法で高次元異種データから確率的生成モデルを学習することに興味がある。
本稿では,指数関数的な分布系を通じて異なるデータ型を結合する一般的なフレームワークを提案する。
提案アルゴリズムは、実数値(ガウス)とカテゴリー(マルチノミカル)の特徴を持つ、よく遭遇する異種データセットについて詳細に述べる。
論文 参考訳(メタデータ) (2021-08-27T18:10:31Z) - Bayesian Sparse Factor Analysis with Kernelized Observations [67.60224656603823]
多視点問題は潜在変数モデルに直面することができる。
高次元問題と非線形問題は伝統的にカーネルメソッドによって扱われる。
両アプローチを単一モデルにマージすることを提案する。
論文 参考訳(メタデータ) (2020-06-01T14:25:38Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。