論文の概要: Sampling-enabled scalable manifold learning unveils discriminative cluster structure of high-dimensional data
- arxiv url: http://arxiv.org/abs/2401.01100v4
- Date: Fri, 01 Aug 2025 13:18:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 14:06:53.257226
- Title: Sampling-enabled scalable manifold learning unveils discriminative cluster structure of high-dimensional data
- Title(参考訳): サンプリング可能なスケーラブルな多様体学習は高次元データの識別クラスタ構造を明らかにする
- Authors: Dehua Peng, Zhipeng Gui, Wenzhang Wei, Fa Li, Jie Gui, Huayi Wu, Jianya Gong,
- Abstract要約: 大規模・高次元データに対して一様および識別的埋め込み(SUDE)を可能にする,サンプリングベースでスケーラブルな多様体学習手法を提案する。
合成データセットと実世界のベンチマークにおけるSUDEの有効性を実証的に検証し, 単細胞データの解析と心電図信号の異常検出に応用した。
- 参考スコア(独自算出の注目度): 8.507955301076633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a pivotal branch of machine learning, manifold learning uncovers the intrinsic low-dimensional structure within complex nonlinear manifolds in high-dimensional space for visualization, classification, clustering, and gaining key insights. Although existing techniques have achieved remarkable successes, they suffer from extensive distortions of cluster structure, which hinders the understanding of underlying patterns. Scalability issues also limit their applicability for handling large-scale data. We hence propose a sampling-based Scalable manifold learning technique that enables Uniform and Discriminative Embedding, namely SUDE, for large-scale and high-dimensional data. It starts by seeking a set of landmarks to construct the low-dimensional skeleton of the entire data, and then incorporates the non-landmarks into the learned space based on the constrained locally linear embedding (CLLE). We empirically validated the effectiveness of SUDE on synthetic datasets and real-world benchmarks, and applied it to analyze single-cell data and detect anomalies in electrocardiogram (ECG) signals. SUDE exhibits distinct advantage in scalability with respect to data size and embedding dimension, and has promising performance in cluster separation, integrity, and global structure preservation. The experiments also demonstrate notable robustness in embedding quality as the sampling rate decreases.
- Abstract(参考訳): 機械学習の重要な分野として、多様体学習は、可視化、分類、クラスタリング、および重要な洞察を得るための高次元空間における複素非線形多様体内の固有の低次元構造を明らかにする。
既存の技術は目覚ましい成功を収めてきたが、それらはクラスタ構造の広範な歪みに悩まされ、基盤となるパターンの理解を妨げている。
スケーラビリティの問題はまた、大規模なデータを扱うための適用性を制限している。
そこで我々は,一様および識別的埋め込み,すなわちSUDEを大規模かつ高次元のデータに適用可能な,サンプリングに基づくスケーラブルな多様体学習手法を提案する。
まず、データ全体の低次元スケルトンを構築するためのランドマークのセットを探し始め、制約付き局所線型埋め込み(CLLE)に基づいて非ランドマークを学習空間に組み込む。
合成データセットと実世界のベンチマークにおけるSUDEの有効性を実証的に検証し, 単細胞データの解析と心電図信号の異常検出に応用した。
SUDEは、データサイズと埋め込み次元に関してスケーラビリティにおいて明確な優位性を示し、クラスタ分離、完全性、グローバル構造保存において有望なパフォーマンスを持つ。
また, サンプリング速度が低下するにつれて, 埋込み品質の顕著な堅牢性を示した。
関連論文リスト
- Adaptive and Robust DBSCAN with Multi-agent Reinforcement Learning [53.527506374566485]
本稿では,多エージェント強化学習クラスタフレームワーク,すなわちAR-DBSCANを用いた新しいAdaptive and Robust DBSCANを提案する。
我々は、AR-DBSCANが、NMIおよびARIメトリクスの最大144.1%と175.3%のクラスタリング精度を向上するだけでなく、支配的なパラメータを確実に見つけることができることを示した。
論文 参考訳(メタデータ) (2025-05-07T11:37:23Z) - Unbiased Max-Min Embedding Classification for Transductive Few-Shot Learning: Clustering and Classification Are All You Need [83.10178754323955]
わずかなショットラーニングにより、モデルがいくつかのラベル付き例から一般化できる。
本稿では,Unbiased Max-Min Embedding Classification (UMMEC)法を提案する。
本手法は最小ラベル付きデータを用いて分類性能を著しく向上させ, 注釈付きLの最先端化を推し進める。
論文 参考訳(メタデータ) (2025-03-28T07:23:07Z) - Unraveling the Localized Latents: Learning Stratified Manifold Structures in LLM Embedding Space with Sparse Mixture-of-Experts [3.9426000822656224]
大規模な言語モデルでは、埋め込みは入力データの難易度や領域によって異なる次元の局所多様体構造に存在していると推測する。
注意に基づくソフトゲーティングネットワークを組み込むことで,我々のモデルは入力データソースのアンサンブルのために,特別なサブマニフォールドを学習することを確認した。
論文 参考訳(メタデータ) (2025-02-19T09:33:16Z) - An Enhanced Classification Method Based on Adaptive Multi-Scale Fusion for Long-tailed Multispectral Point Clouds [67.96583737413296]
長距離分布を持つMPCに対する適応的マルチスケール融合に基づく拡張型分類法を提案する。
トレーニングセット生成段階では、スパースラベル付きデータセットからトレーニングサンプルを確実に生成するグリッドバランスサンプリング戦略が設計されている。
特徴学習の段階では,異なるスケールの土地被覆の浅い特徴を融合させるため,マルチスケールの特徴融合モジュールが提案されている。
論文 参考訳(メタデータ) (2024-12-16T03:21:20Z) - Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Inductive Global and Local Manifold Approximation and Projection [5.629705943815797]
まず,次元縮小と高次元データ可視化のための新しい多様体学習法であるGLoMAPを提案する。
我々はGLoMAPをインダクティブ版iGLoMAPに拡張し、ディープニューラルネットワークを用いてデータを低次元表現にマッピングする。
我々は,GLoMAPとiGLoMAPの両方をシミュレーションおよび実データ設定に適用し,最先端手法に対する競合実験を行った。
論文 参考訳(メタデータ) (2024-06-12T11:22:27Z) - Distributional Reduction: Unifying Dimensionality Reduction and Clustering with Gromov-Wasserstein [56.62376364594194]
教師なし学習は、潜在的に大きな高次元データセットの基盤構造を捉えることを目的としている。
本研究では、最適輸送のレンズの下でこれらのアプローチを再検討し、Gromov-Wasserstein問題と関係を示す。
これにより、分散還元と呼ばれる新しい一般的なフレームワークが公開され、DRとクラスタリングを特別なケースとして回復し、単一の最適化問題内でそれらに共同で対処することができる。
論文 参考訳(メタデータ) (2024-02-03T19:00:19Z) - Datacube segmentation via Deep Spectral Clustering [76.48544221010424]
拡張ビジョン技術は、しばしばその解釈に挑戦する。
データ立方体スペクトルの巨大な次元性は、その統計的解釈において複雑なタスクを生じさせる。
本稿では,符号化空間における教師なしクラスタリング手法の適用の可能性について検討する。
統計的次元削減はアドホック訓練(可変)オートエンコーダで行い、クラスタリング処理は(学習可能な)反復K-Meansクラスタリングアルゴリズムで行う。
論文 参考訳(メタデータ) (2024-01-31T09:31:28Z) - Unsupervised Anomaly Detection via Nonlinear Manifold Learning [0.0]
異常は、残りのデータから著しく逸脱するサンプルであり、その検出は機械学習モデルを構築する上で大きな役割を果たす。
非線形多様体学習に基づく頑健で効率的かつ解釈可能な手法を導入し,教師なし設定における異常を検出する。
論文 参考訳(メタデータ) (2023-06-15T18:48:10Z) - Learning Structure Aware Deep Spectral Embedding [11.509692423756448]
本稿では, スペクトル埋込み損失と構造保存損失を組み合わせ, 深層スペクトルの埋込みを考慮した新しい構造解析手法を提案する。
両タイプの情報を同時に符号化し,構造認識型スペクトル埋め込みを生成するディープニューラルネットワークアーキテクチャを提案する。
提案アルゴリズムは,公開されている6つの実世界のデータセットを用いて評価する。
論文 参考訳(メタデータ) (2023-05-14T18:18:05Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Towards Understanding and Mitigating Dimensional Collapse in Heterogeneous Federated Learning [112.69497636932955]
フェデレートラーニングは、プライバシを考慮したデータ共有を必要とせずに、さまざまなクライアントでモデルをトレーニングすることを目的としている。
本研究では,データの不均一性がグローバル集約モデルの表現に与える影響について検討する。
フェデレーション学習における次元的崩壊を効果的に緩和する新しい手法である sc FedDecorr を提案する。
論文 参考訳(メタデータ) (2022-10-01T09:04:17Z) - Enhancing cluster analysis via topological manifold learning [0.3823356975862006]
クラスタ化前にデータセットのトポロジ構造を推定することで,クラスタ検出を大幅に向上させることができることを示す。
位相構造を推定するための多様体学習法UMAPと密度に基づくクラスタリング法DBSCANを組み合わせた。
論文 参考訳(メタデータ) (2022-07-01T15:53:39Z) - Adaptive Hierarchical Similarity Metric Learning with Noisy Labels [138.41576366096137]
適応的階層的類似度メトリック学習法を提案する。
ノイズに敏感な2つの情報、すなわち、クラスワイドのばらつきとサンプルワイドの一貫性を考える。
提案手法は,現在の深層学習手法と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-10-29T02:12:18Z) - Structure-Aware Feature Generation for Zero-Shot Learning [108.76968151682621]
潜在空間と生成ネットワークの両方を学習する際の位相構造を考慮し,SA-GANと呼ばれる新しい構造認識特徴生成手法を提案する。
本手法は,未確認クラスの一般化能力を大幅に向上させ,分類性能を向上させる。
論文 参考訳(メタデータ) (2021-08-16T11:52:08Z) - Spatial-Spectral Clustering with Anchor Graph for Hyperspectral Image [88.60285937702304]
本稿では、HSIデータクラスタリングのための空間スペクトルクラスタリングとアンカーグラフ(SSCAG)という新しい非監視アプローチを提案する。
提案されたSSCAGは最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2021-04-24T08:09:27Z) - Rank-R FNN: A Tensor-Based Learning Model for High-Order Data
Classification [69.26747803963907]
Rank-R Feedforward Neural Network (FNN)は、そのパラメータにCanonical/Polyadic分解を課すテンソルベースの非線形学習モデルである。
まず、入力をマルチリニアアレイとして扱い、ベクトル化の必要性を回避し、すべてのデータ次元に沿って構造情報を十分に活用することができる。
Rank-R FNNの普遍的な近似と学習性の特性を確立し、実世界のハイパースペクトルデータセットのパフォーマンスを検証する。
論文 参考訳(メタデータ) (2021-04-11T16:37:32Z) - A Multiscale Environment for Learning by Diffusion [9.619814126465206]
本稿では,Multiscale Environment for Learning by Diffusion (MELD)データモデルを提案する。
本稿では,MELDデータモデルがデータ中の潜在的マルチスケール構造を正確に把握し,解析を容易にすることを示す。
多くの実データセットで観測されるマルチスケール構造を効率的に学習するために,教師なし拡散(M-LUND)クラスタリングアルゴリズムを導入する。
論文 参考訳(メタデータ) (2021-01-31T17:46:19Z) - Invertible Manifold Learning for Dimension Reduction [44.16432765844299]
次元減少(DR)は,重要情報の保存により高次元データの低次元表現を学習することを目的としている。
Inv-ML(invertible manifold learning)と呼ばれる新しい2段階DR法を提案し、理論的な情報損失のないDRと実用的なDRのギャップを埋める。
実験は、i-ML-Encと呼ばれる、inv-MLのニューラルネットワーク実装による7つのデータセットで実施される。
論文 参考訳(メタデータ) (2020-10-07T14:22:51Z) - Clustering small datasets in high-dimension by random projection [2.2940141855172027]
統計的に重要なクラスタリング構造を小さなデータセットで見つけるための低計算手法を提案する。
この手法は、ランダムな線上にデータを投影し、その結果の1次元データにバイナリクラスタリングを求める。
得られたクラスタリング構造の統計的妥当性を投影された一次元空間で検証する。
論文 参考訳(メタデータ) (2020-08-21T16:49:37Z) - Visualizing the Finer Cluster Structure of Large-Scale and
High-Dimensional Data [7.400745342582259]
一般化されたシグモイド関数を用いて高次元空間と低次元空間の距離類似性をモデル化する。
本研究では,シミュレーションと実世界の両方のデータセットを用いて,一様多様体の近似と投影に匹敵する可視化結果が得られることを示す。
論文 参考訳(メタデータ) (2020-07-17T01:36:45Z) - Manifold Learning via Manifold Deflation [105.7418091051558]
次元削減法は、高次元データの可視化と解釈に有用な手段を提供する。
多くの一般的な手法は単純な2次元のマニフォールドでも劇的に失敗する。
本稿では,グローバルな構造を座標として組み込んだ,新しいインクリメンタルな空間推定器の埋め込み手法を提案する。
実験により,本アルゴリズムは実世界および合成データセットに新規で興味深い埋め込みを復元することを示した。
論文 参考訳(メタデータ) (2020-07-07T10:04:28Z) - Robust Self-Supervised Convolutional Neural Network for Subspace
Clustering and Classification [0.10152838128195464]
本稿では,自己管理型畳み込みサブスペースクラスタリングネットワーク(S2$ConvSCN)のロバストな定式化を提案する。
真の教師なしのトレーニング環境では、Robust $S2$ConvSCNは、4つのよく知られたデータセットで見られるデータと見えないデータの両方に対して、ベースラインバージョンをかなり上回っている。
論文 参考訳(メタデータ) (2020-04-03T16:07:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。