論文の概要: ZEUS: Zero-shot Embeddings for Unsupervised Separation of Tabular Data
- arxiv url: http://arxiv.org/abs/2505.10704v1
- Date: Thu, 15 May 2025 20:52:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:13.571043
- Title: ZEUS: Zero-shot Embeddings for Unsupervised Separation of Tabular Data
- Title(参考訳): ZEUS: 教師なしタブラリデータの分離のためのゼロショット埋め込み
- Authors: Patryk Marszałek, Tomasz Kuśmierczyk, Witold Wydmański, Jacek Tabor, Marek Śmieja,
- Abstract要約: ZEUSは、追加のトレーニングや微調整なしに新しいデータセットをクラスタリングできる自己完結型モデルである。
複雑なデータセットを意味のあるコンポーネントに分解して動作し、効果的にクラスタ化することができる。
- 参考スコア(独自算出の注目度): 7.121259735505479
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clustering tabular data remains a significant open challenge in data analysis and machine learning. Unlike for image data, similarity between tabular records often varies across datasets, making the definition of clusters highly dataset-dependent. Furthermore, the absence of supervised signals complicates hyperparameter tuning in deep learning clustering methods, frequently resulting in unstable performance. To address these issues and reduce the need for per-dataset tuning, we adopt an emerging approach in deep learning: zero-shot learning. We propose ZEUS, a self-contained model capable of clustering new datasets without any additional training or fine-tuning. It operates by decomposing complex datasets into meaningful components that can then be clustered effectively. Thanks to pre-training on synthetic datasets generated from a latent-variable prior, it generalizes across various datasets without requiring user intervention. To the best of our knowledge, ZEUS is the first zero-shot method capable of generating embeddings for tabular data in a fully unsupervised manner. Experimental results demonstrate that it performs on par with or better than traditional clustering algorithms and recent deep learning-based methods, while being significantly faster and more user-friendly.
- Abstract(参考訳): 表データのクラスタリングは、データ分析と機械学習において、依然として大きなオープンな課題である。
画像データとは異なり、表レコード間の類似性はしばしばデータセットによって異なり、クラスタの定義はデータセットに依存している。
さらに、教師付き信号の欠如は、ディープラーニングクラスタリング法におけるハイパーパラメータチューニングを複雑にし、しばしば不安定な性能をもたらす。
これらの問題に対処し、データセットごとのチューニングの必要性を減らすために、ディープラーニングの新たなアプローチであるゼロショット学習を採用しています。
我々は、新たなデータセットを追加のトレーニングや微調整なしでクラスタリングできる自己完結型モデルZEUSを提案する。
複雑なデータセットを意味のあるコンポーネントに分解して動作し、効果的にクラスタ化することができる。
潜伏変数の先行データから生成された合成データセットの事前トレーニングにより、ユーザの介入を必要とせずに、さまざまなデータセットをまたがって一般化される。
我々の知る限り、ZEUSは、完全に教師なしの方法で表データの埋め込みを生成することができる最初のゼロショット法である。
実験の結果、従来のクラスタリングアルゴリズムや最近のディープラーニングベースの手法と同等以上の性能を示しながら、はるかに高速でユーザフレンドリーであることがわかった。
関連論文リスト
- Continual Learning for Multimodal Data Fusion of a Soft Gripper [1.0589208420411014]
あるデータモダリティに基づいてトレーニングされたモデルは、異なるモダリティでテストした場合、しばしば失敗する。
異なるデータモダリティを漸進的に学習できる連続学習アルゴリズムを提案する。
我々は、アルゴリズムの有効性を、挑戦的なカスタムマルチモーダルデータセット上で評価する。
論文 参考訳(メタデータ) (2024-09-20T09:53:27Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Influence of Swarm Intelligence in Data Clustering Mechanisms [0.0]
自然にインスパイアされたSwarmベースのアルゴリズムは、データの欠如と一貫性のない大規模なデータセットに対処するために、データクラスタリングに使用される。
本稿では、これらの新しいアプローチの性能を概観し、問題のある状況に最適な方法の比較を行う。
論文 参考訳(メタデータ) (2023-05-07T08:40:50Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - CADIS: Handling Cluster-skewed Non-IID Data in Federated Learning with
Clustered Aggregation and Knowledge DIStilled Regularization [3.3711670942444014]
フェデレーション学習は、エッジデバイスがデータを公開することなく、グローバルモデルを協調的にトレーニングすることを可能にする。
我々は、実際のデータセットで発見されたクラスタスキュード非IIDと呼ばれる新しいタイプの非IIDデータに取り組む。
本稿では,クラスタ間の平等を保証するアグリゲーション方式を提案する。
論文 参考訳(メタデータ) (2023-02-21T02:53:37Z) - Inv-SENnet: Invariant Self Expression Network for clustering under
biased data [17.25929452126843]
本研究では,各サブ空間におけるデータポイントのクラスタ化を学習しながら,不要な属性(バイアス)を共同で除去する新しいフレームワークを提案する。
合成および実世界のデータセットに対する実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2022-11-13T01:19:06Z) - Leveraging Ensembles and Self-Supervised Learning for Fully-Unsupervised
Person Re-Identification and Text Authorship Attribution [77.85461690214551]
完全ラベル付きデータからの学習は、Person Re-IdentificationやText Authorship Attributionなどのマルチメディアフォレスト問題において困難である。
近年の自己教師型学習法は,基礎となるクラスに意味的差異が有る場合に,完全ラベル付きデータを扱う際に有効であることが示されている。
本研究では,異なるクラスからのサンプルが顕著に多様性を持っていない場合でも,ラベルのないデータから学習できるようにすることにより,個人再認識とテキストオーサシップの属性に対処する戦略を提案する。
論文 参考訳(メタデータ) (2022-02-07T13:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。