論文の概要: Multimodal Data Fusion in High-Dimensional Heterogeneous Datasets via
Generative Models
- arxiv url: http://arxiv.org/abs/2108.12445v1
- Date: Fri, 27 Aug 2021 18:10:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-31 14:56:44.606842
- Title: Multimodal Data Fusion in High-Dimensional Heterogeneous Datasets via
Generative Models
- Title(参考訳): 生成モデルによる高次元不均一データセットのマルチモーダルデータ融合
- Authors: Yasin Yilmaz, Mehmet Aktukmak, Alfred O. Hero
- Abstract要約: 我々は、教師なしの方法で高次元異種データから確率的生成モデルを学習することに興味がある。
本稿では,指数関数的な分布系を通じて異なるデータ型を結合する一般的なフレームワークを提案する。
提案アルゴリズムは、実数値(ガウス)とカテゴリー(マルチノミカル)の特徴を持つ、よく遭遇する異種データセットについて詳細に述べる。
- 参考スコア(独自算出の注目度): 16.436293069942312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The commonly used latent space embedding techniques, such as Principal
Component Analysis, Factor Analysis, and manifold learning techniques, are
typically used for learning effective representations of homogeneous data.
However, they do not readily extend to heterogeneous data that are a
combination of numerical and categorical variables, e.g., arising from linked
GPS and text data. In this paper, we are interested in learning probabilistic
generative models from high-dimensional heterogeneous data in an unsupervised
fashion. The learned generative model provides latent unified representations
that capture the factors common to the multiple dimensions of the data, and
thus enable fusing multimodal data for various machine learning tasks.
Following a Bayesian approach, we propose a general framework that combines
disparate data types through the natural parameterization of the exponential
family of distributions. To scale the model inference to millions of instances
with thousands of features, we use the Laplace-Bernstein approximation for
posterior computations involving nonlinear link functions. The proposed
algorithm is presented in detail for the commonly encountered heterogeneous
datasets with real-valued (Gaussian) and categorical (multinomial) features.
Experiments on two high-dimensional and heterogeneous datasets (NYC Taxi and
MovieLens-10M) demonstrate the scalability and competitive performance of the
proposed algorithm on different machine learning tasks such as anomaly
detection, data imputation, and recommender systems.
- Abstract(参考訳): 主成分分析、因子分析、多様体学習といった一般的な潜在空間埋め込み技術は、通常、均質なデータの効果的な表現を学ぶために用いられる。
しかし、これらは数値変数と分類変数の組み合わせである異種データ(例えば、GPSとテキストデータから生じるような)に容易に拡張できない。
本稿では,高次元不均一データから確率的生成モデルを教師なしで学習することに関心がある。
学習された生成モデルは、データの多次元に共通する要素をキャプチャする潜在統一表現を提供し、様々な機械学習タスクにマルチモーダルデータを融合可能にする。
ベイズ的アプローチに従い,分布の指数関数族を自然パラメータ化することで,異なるデータ型を結合する汎用フレームワークを提案する。
モデル推論を何千もの特徴を持つ数百万のインスタンスに拡張するために、非線形リンク関数を含む後続計算にLaplace-Bernstein近似を用いる。
提案手法は,実数値(ガウシアン)と分類的(多項)特徴を持つ不均質なデータセットについて詳細に提示する。
2つの高次元および異種データセット(nyc taxiおよびmovielens-10m)の実験は、異常検出、データインプテーション、レコメンダシステムなどの異なる機械学習タスクにおける提案アルゴリズムのスケーラビリティと競合性を示している。
関連論文リスト
- Learning Divergence Fields for Shift-Robust Graph Representations [73.11818515795761]
本研究では,相互依存データに対する問題に対して,学習可能な分散場を持つ幾何学的拡散モデルを提案する。
因果推論によって新たな学習目標が導出され、ドメイン間で無神経な相互依存の一般化可能なパターンを学習するためのモデルが導出される。
論文 参考訳(メタデータ) (2024-06-07T14:29:21Z) - Joint Distributional Learning via Cramer-Wold Distance [0.7614628596146602]
高次元データセットの共分散学習を容易にするために,クレーマー-ウォルド距離正規化を導入し,クレーマー-ウォルド距離正規化法を提案する。
また、フレキシブルな事前モデリングを可能にする2段階学習手法を導入し、集約後と事前分布のアライメントを改善する。
論文 参考訳(メタデータ) (2023-10-25T05:24:23Z) - VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-04-03T13:13:19Z) - Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - RandomSCM: interpretable ensembles of sparse classifiers tailored for
omics data [59.4141628321618]
決定規則の結合や解離に基づくアンサンブル学習アルゴリズムを提案する。
モデルの解釈可能性により、高次元データのバイオマーカー発見やパターン発見に有用である。
論文 参考訳(メタデータ) (2022-08-11T13:55:04Z) - Scalable Regularised Joint Mixture Models [2.0686407686198263]
多くの応用において、データは異なる基底分布を持つ潜在群にまたがるという意味で不均一である。
我々は,(i)明示的多変量特徴分布,(ii)高次元回帰モデル,(iii)潜在群ラベルの連成学習を可能にする異種データに対するアプローチを提案する。
このアプローチは明らかに高次元において有効であり、計算効率のためのデータ削減と、特徴数が大きければ鍵信号を保持する再重み付けスキームを組み合わせる。
論文 参考訳(メタデータ) (2022-05-03T13:38:58Z) - Scalable Gaussian Processes for Data-Driven Design using Big Data with
Categorical Factors [14.337297795182181]
ガウス過程(GP)は、大きなデータセット、カテゴリ入力、および複数の応答を調節するのに困難である。
本稿では,変分推論によって得られた潜伏変数と関数を用いて,上記の課題を同時に解決するGPモデルを提案する。
本手法は三元系酸化物材料の機械学習と多スケール対応機構のトポロジー最適化に有用である。
論文 参考訳(メタデータ) (2021-06-26T02:17:23Z) - Variational Selective Autoencoder: Learning from Partially-Observed
Heterogeneous Data [45.23338389559936]
本研究では,部分観測された異種データから表現を学習するための変分選択型オートエンコーダ(VSAE)を提案する。
vsaeは、観測データ、観測されていないデータ、およびインプテーションマスクの合同分布をモデル化することで、異種データの潜在依存関係を学習する。
その結果、データ生成や計算を含むさまざまな下流タスクの統一モデルが実現される。
論文 参考訳(メタデータ) (2021-02-25T04:39:13Z) - Generalized Matrix Factorization: efficient algorithms for fitting
generalized linear latent variable models to large data arrays [62.997667081978825]
一般化線形潜在変数モデル(GLLVM)は、そのような因子モデルを非ガウス応答に一般化する。
GLLVMのモデルパラメータを推定する現在のアルゴリズムは、集約的な計算を必要とし、大規模なデータセットにスケールしない。
本稿では,GLLVMを高次元データセットに適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-06T04:28:19Z) - VAEM: a Deep Generative Model for Heterogeneous Mixed Type Data [16.00692074660383]
VAEMは2段階的に訓練された深層生成モデルである。
VAEMは、深層生成モデルをうまく展開できる現実世界のアプリケーションの範囲を広げることを示す。
論文 参考訳(メタデータ) (2020-06-21T23:47:32Z) - Bayesian Sparse Factor Analysis with Kernelized Observations [67.60224656603823]
多視点問題は潜在変数モデルに直面することができる。
高次元問題と非線形問題は伝統的にカーネルメソッドによって扱われる。
両アプローチを単一モデルにマージすることを提案する。
論文 参考訳(メタデータ) (2020-06-01T14:25:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。