論文の概要: Visualizing the Finer Cluster Structure of Large-Scale and
High-Dimensional Data
- arxiv url: http://arxiv.org/abs/2007.08711v1
- Date: Fri, 17 Jul 2020 01:36:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 12:56:06.993256
- Title: Visualizing the Finer Cluster Structure of Large-Scale and
High-Dimensional Data
- Title(参考訳): 大規模・高次元データのクラスター構造の可視化
- Authors: Yu Liang, Arin Chaudhuri, and Haoyu Wang
- Abstract要約: 一般化されたシグモイド関数を用いて高次元空間と低次元空間の距離類似性をモデル化する。
本研究では,シミュレーションと実世界の両方のデータセットを用いて,一様多様体の近似と投影に匹敵する可視化結果が得られることを示す。
- 参考スコア(独自算出の注目度): 7.400745342582259
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dimension reduction and visualization of high-dimensional data have become
very important research topics because of the rapid growth of large databases
in data science. In this paper, we propose using a generalized sigmoid function
to model the distance similarity in both high- and low-dimensional spaces. In
particular, the parameter b is introduced to the generalized sigmoid function
in low-dimensional space, so that we can adjust the heaviness of the function
tail by changing the value of b. Using both simulated and real-world data sets,
we show that our proposed method can generate visualization results comparable
to those of uniform manifold approximation and projection (UMAP), which is a
newly developed manifold learning technique with fast running speed, better
global structure, and scalability to massive data sets. In addition, according
to the purpose of the study and the data structure, we can decrease or increase
the value of b to either reveal the finer cluster structure of the data or
maintain the neighborhood continuity of the embedding for better visualization.
Finally, we use domain knowledge to demonstrate that the finer subclusters
revealed with small values of b are meaningful.
- Abstract(参考訳): データサイエンスにおける大規模データベースの急速な成長により,高次元データの次元化と可視化が重要な研究課題となっている。
本稿では,高次元空間と低次元空間の両方における距離類似性をモデル化するための一般化シグモイド関数を提案する。
特に、パラメータbを低次元空間における一般化されたsgmoid関数に導入することにより、bの値を変えて関数テールの重みを調整できる。
シミュレーションデータと実世界のデータの両方を用いて,提案手法は,高速実行速度,グローバル構造,大規模データセットへの拡張性を備えた,新たに開発された多様体学習手法であるuniform manifold approximation and projection (umap) に匹敵する可視化結果を生成することができることを示した。
また、研究の目的とデータ構造により、データのより細かいクラスタ構造を明らかにするか、あるいは埋め込みの近傍連続性を維持するために、bの値を減少または増加させることができる。
最後に、ドメイン知識を用いて、より微細なサブクラスタが b の小さな値で表されることは有意義であることを示す。
関連論文リスト
- Topology-aware Reinforcement Feature Space Reconstruction for Graph Data [22.5530178427691]
優れた機能領域の再構築は、データのAI能力の向上、モデルの一般化の改善、下流MLモデルの可用性の向上に不可欠である。
我々は、トポロジ対応強化学習を用いて、グラフデータの特徴空間再構成を自動化し、最適化する。
提案手法では,コア部分グラフ抽出とグラフニューラルネットワーク(GNN)の併用により,トポロジ的特徴を符号化し,計算複雑性を低減する。
論文 参考訳(メタデータ) (2024-11-08T18:01:05Z) - Distributional Reduction: Unifying Dimensionality Reduction and Clustering with Gromov-Wasserstein [56.62376364594194]
教師なし学習は、潜在的に大きな高次元データセットの基盤構造を捉えることを目的としている。
本研究では、最適輸送のレンズの下でこれらのアプローチを再検討し、Gromov-Wasserstein問題と関係を示す。
これにより、分散還元と呼ばれる新しい一般的なフレームワークが公開され、DRとクラスタリングを特別なケースとして回復し、単一の最適化問題内でそれらに共同で対処することができる。
論文 参考訳(メタデータ) (2024-02-03T19:00:19Z) - Scalable manifold learning by uniform landmark sampling and constrained
locally linear embedding [0.6144680854063939]
本研究では,大規模・高次元データを効率的に操作できるスケーラブルな多様体学習法を提案する。
異なるタイプの合成データセットと実世界のベンチマークにおけるSCMLの有効性を実証的に検証した。
scMLはデータサイズや埋め込み次元の増大とともにスケールし、グローバル構造を保存する上で有望なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-01-02T08:43:06Z) - T1: Scaling Diffusion Probabilistic Fields to High-Resolution on Unified
Visual Modalities [69.16656086708291]
拡散確率場(DPF)は、距離空間上で定義された連続関数の分布をモデル化する。
本稿では,局所構造学習に着目したビューワイズサンプリングアルゴリズムによる新しいモデルを提案する。
モデルは、複数のモダリティを統一しながら、高解像度のデータを生成するためにスケールすることができる。
論文 参考訳(メタデータ) (2023-05-24T03:32:03Z) - VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-04-03T13:13:19Z) - Laplacian-based Cluster-Contractive t-SNE for High Dimensional Data
Visualization [20.43471678277403]
本稿では t-SNE に基づく新しいグラフベース次元削減手法 LaptSNE を提案する。
具体的には、LaptSNEはグラフラプラシアンの固有値情報を利用して、低次元埋め込みにおけるポテンシャルクラスタを縮小する。
ラプラシアン合成目的による最適化を考える際には、より広い関心を持つであろう勾配を解析的に計算する方法を示す。
論文 参考訳(メタデータ) (2022-07-25T14:10:24Z) - A geometric framework for outlier detection in high-dimensional data [0.0]
異常検出はデータ分析において重要な課題である。
データセットのメトリック構造を利用するフレームワークを提供する。
この構造を利用することで,高次元データにおける外部観測の検出が大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-07-01T12:07:51Z) - Spatial-Spectral Clustering with Anchor Graph for Hyperspectral Image [88.60285937702304]
本稿では、HSIデータクラスタリングのための空間スペクトルクラスタリングとアンカーグラフ(SSCAG)という新しい非監視アプローチを提案する。
提案されたSSCAGは最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2021-04-24T08:09:27Z) - Mix Dimension in Poincar\'{e} Geometry for 3D Skeleton-based Action
Recognition [57.98278794950759]
グラフ畳み込みネットワーク(GCN)はすでに、不規則なデータをモデル化する強力な能力を実証している。
本稿では,ポアンカー幾何学を用いて定義した空間時空間GCNアーキテクチャを提案する。
提案手法を,現在最大規模の2つの3次元データセット上で評価する。
論文 参考訳(メタデータ) (2020-07-30T18:23:18Z) - Two-Dimensional Semi-Nonnegative Matrix Factorization for Clustering [50.43424130281065]
TS-NMFと呼ばれる2次元(2次元)データに対する新しい半負行列分解法を提案する。
前処理ステップで2次元データをベクトルに変換することで、データの空間情報に深刻なダメージを与える既存の手法の欠点を克服する。
論文 参考訳(メタデータ) (2020-05-19T05:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。