論文の概要: Gem: Gaussian Mixture Model Embeddings for Numerical Feature Distributions
- arxiv url: http://arxiv.org/abs/2410.07485v1
- Date: Wed, 9 Oct 2024 23:40:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 16:56:23.199831
- Title: Gem: Gaussian Mixture Model Embeddings for Numerical Feature Distributions
- Title(参考訳): Gem:数値的特徴分布のためのガウス混合モデル埋め込み
- Authors: Hafiz Tayyab Rauf, Alex Bogatu, Norman W. Paton, Andre Freitas,
- Abstract要約: 本稿では,列から数値分布をベースとした埋め込みを生成するGem (Gaussian Mixed Model Embeddings) 法を提案する。
我々は,分布,統計,文脈の3つの数値データ特性に対する埋め込みを生成する。
Gemと、数値のみと数値+コンテキストタスクのベースラインメソッドを比較し、Gemが4つのベンチマークデータセットのベースラインを一貫して上回っていることを示す。
- 参考スコア(独自算出の注目度): 2.6536517304571636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embeddings are now used to underpin a wide variety of data management tasks, including entity resolution, dataset search and semantic type detection. Such applications often involve datasets with numerical columns, but there has been more emphasis placed on the semantics of categorical data in embeddings than on the distinctive features of numerical data. In this paper, we propose a method called Gem (Gaussian mixture model embeddings) that creates embeddings that build on numerical value distributions from columns. The proposed method specializes a Gaussian Mixture Model (GMM) to identify and cluster columns with similar value distributions. We introduce a signature mechanism that generates a probability matrix for each column, indicating its likelihood of belonging to specific Gaussian components, which can be used for different applications, such as to determine semantic types. Finally, we generate embeddings for three numerical data properties: distributional, statistical, and contextual. Our core method focuses solely on numerical columns without using table names or neighboring columns for context. However, the method can be combined with other types of evidence, and we later integrate attribute names with the Gaussian embeddings to evaluate the method's contribution to improving overall performance. We compare Gem with several baseline methods for numeric only and numeric + context tasks, showing that Gem consistently outperforms the baselines on four benchmark datasets.
- Abstract(参考訳): 埋め込みは、エンティティ解決、データセット検索、セマンティック型検出など、さまざまなデータ管理タスクの基盤となっている。
このようなアプリケーションは、しばしば数値列を持つデータセットを含むが、数値データの特異な特徴よりも、埋め込みにおける分類データのセマンティクスに重点を置いている。
本稿では,列からの数値分布に基づく埋め込みを生成するGem (Gaussian Mixed Model Embeddings) という手法を提案する。
提案手法はガウス混合モデル(GMM)を用いて,類似した値分布を持つ列の同定とクラスタ化を行う。
本稿では,各列に対して確率行列を生成するシグネチャ機構を導入し,特定のガウス成分に属する確率を示す。
最後に、分布、統計、文脈の3つの数値データ特性に対する埋め込みを生成する。
本手法は,テーブル名や隣接する列を文脈に用いることなく,数値列にのみ焦点をあてる。
しかし,本手法は他の種類のエビデンスと組み合わせることができ,その後ガウス埋め込みと属性名を統合することにより,本手法の全体的な性能向上への寄与を評価することができる。
Gemと、数値のみと数値+コンテキストタスクのベースラインメソッドを比較し、Gemが4つのベンチマークデータセットのベースラインを一貫して上回っていることを示す。
関連論文リスト
- TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation [91.50296404732902]
1つのモデルで表データのマルチモーダル分布をモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - Mixed-type Distance Shrinkage and Selection for Clustering via Kernel Metric Learning [0.0]
我々は、混合カーネルを用いて異種性を測定するKDSUMと呼ばれる計量を提案する。
我々は、KDSUMが既存の混合型メトリクスから均一な異性度メトリクスへの縮小法であることを実証した。
論文 参考訳(メタデータ) (2023-06-02T19:51:48Z) - Leveraging Instance Features for Label Aggregation in Programmatic Weak
Supervision [75.1860418333995]
Programmatic Weak Supervision (PWS) は、トレーニングラベルを効率的に合成するための広く普及したパラダイムとして登場した。
PWSのコアコンポーネントはラベルモデルであり、複数のノイズ管理ソースの出力をラベル関数として集約することで、真のラベルを推論する。
既存の統計ラベルモデルは一般的にLFの出力のみに依存し、基礎となる生成過程をモデル化する際のインスタンスの特徴を無視している。
論文 参考訳(メタデータ) (2022-10-06T07:28:53Z) - GMMSeg: Gaussian Mixture based Generative Semantic Segmentation Models [74.0430727476634]
結合分布 p(ピクセル特徴,クラス) の高密度な生成型分類器に依存する分割モデルの新たなファミリーを提案する。
さまざまなセグメンテーションアーキテクチャとバックボーンにより、GMMSegはクローズドセットデータセットにおいて差別的よりも優れています。
GMMSegは、オープンワールドデータセットでもうまく機能する。
論文 参考訳(メタデータ) (2022-10-05T05:20:49Z) - Aggregated Multi-output Gaussian Processes with Knowledge Transfer
Across Domains [39.25639417233822]
本稿では,各粒度の集合データセットを用いて属性の関数を推論する多出力ガウス過程(MoGP)モデルを提案する。
実験により,提案手法は実世界のデータセットの粗粒度データを精錬する作業において優れていた。
論文 参考訳(メタデータ) (2022-06-24T08:07:20Z) - Mixed data Deep Gaussian Mixture Model: A clustering model for mixed
datasets [0.0]
我々はMixed Deep Gaussian Mixture Model (MDGMM)と呼ばれるモデルに基づくクラスタリング手法を提案する。
このアーキテクチャは柔軟性があり、連続データや非連続データにも適用できる。
我々のモデルはデータの連続的な低次元表現を提供し、混合データセットを視覚化するのに有用なツールである。
論文 参考訳(メタデータ) (2020-10-13T19:52:46Z) - Kernel learning approaches for summarising and combining posterior
similarity matrices [68.8204255655161]
我々は,ベイズクラスタリングモデルに対するMCMCアルゴリズムの出力を要約するための新しいアプローチを提案するために,後部類似性行列(PSM)の概念を構築した。
我々の研究の重要な貢献は、PSMが正の半定値であり、したがって確率的に動機付けられたカーネル行列を定義するのに使用できることである。
論文 参考訳(メタデータ) (2020-09-27T14:16:14Z) - Handling missing data in model-based clustering [0.0]
欠損データの存在下でガウス混合体を適合させる2つの方法を提案する。
どちらの手法もデータ拡張のためにモンテカルロ予測最大化アルゴリズムの変種を用いる。
提案手法はクラスタ同定と密度推定の両面で多重計算手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-06-04T15:36:31Z) - Robust M-Estimation Based Bayesian Cluster Enumeration for Real
Elliptically Symmetric Distributions [5.137336092866906]
データセットにおける最適なクラスタ数のロバストな決定は、広範囲のアプリケーションにおいて必須の要素である。
本稿では任意のReally Symmetric(RES)分散混合モデルで使用できるように一般化する。
サンプルサイズが有限であるデータセットに対して,ロバストな基準を導出するとともに,大規模なサンプルサイズでの計算コスト削減のための近似を提供する。
論文 参考訳(メタデータ) (2020-05-04T11:44:49Z) - Conjoined Dirichlet Process [63.89763375457853]
我々はディリクレ過程に基づく新しい非パラメトリック確率的ビクラスタリング法を開発し、列と列の双方に強い共起を持つビクラスタを同定する。
本手法はテキストマイニングと遺伝子発現解析の2つの異なる応用に適用し,既存の手法に比べて多くの設定でビクラスタ抽出を改善することを示す。
論文 参考訳(メタデータ) (2020-02-08T19:41:23Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。