論文の概要: Visualizing the Finer Cluster Structure of Large-Scale and
High-Dimensional Data
- arxiv url: http://arxiv.org/abs/2007.08711v1
- Date: Fri, 17 Jul 2020 01:36:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 12:56:06.993256
- Title: Visualizing the Finer Cluster Structure of Large-Scale and
High-Dimensional Data
- Title(参考訳): 大規模・高次元データのクラスター構造の可視化
- Authors: Yu Liang, Arin Chaudhuri, and Haoyu Wang
- Abstract要約: 一般化されたシグモイド関数を用いて高次元空間と低次元空間の距離類似性をモデル化する。
本研究では,シミュレーションと実世界の両方のデータセットを用いて,一様多様体の近似と投影に匹敵する可視化結果が得られることを示す。
- 参考スコア(独自算出の注目度): 7.400745342582259
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dimension reduction and visualization of high-dimensional data have become
very important research topics because of the rapid growth of large databases
in data science. In this paper, we propose using a generalized sigmoid function
to model the distance similarity in both high- and low-dimensional spaces. In
particular, the parameter b is introduced to the generalized sigmoid function
in low-dimensional space, so that we can adjust the heaviness of the function
tail by changing the value of b. Using both simulated and real-world data sets,
we show that our proposed method can generate visualization results comparable
to those of uniform manifold approximation and projection (UMAP), which is a
newly developed manifold learning technique with fast running speed, better
global structure, and scalability to massive data sets. In addition, according
to the purpose of the study and the data structure, we can decrease or increase
the value of b to either reveal the finer cluster structure of the data or
maintain the neighborhood continuity of the embedding for better visualization.
Finally, we use domain knowledge to demonstrate that the finer subclusters
revealed with small values of b are meaningful.
- Abstract(参考訳): データサイエンスにおける大規模データベースの急速な成長により,高次元データの次元化と可視化が重要な研究課題となっている。
本稿では,高次元空間と低次元空間の両方における距離類似性をモデル化するための一般化シグモイド関数を提案する。
特に、パラメータbを低次元空間における一般化されたsgmoid関数に導入することにより、bの値を変えて関数テールの重みを調整できる。
シミュレーションデータと実世界のデータの両方を用いて,提案手法は,高速実行速度,グローバル構造,大規模データセットへの拡張性を備えた,新たに開発された多様体学習手法であるuniform manifold approximation and projection (umap) に匹敵する可視化結果を生成することができることを示した。
また、研究の目的とデータ構造により、データのより細かいクラスタ構造を明らかにするか、あるいは埋め込みの近傍連続性を維持するために、bの値を減少または増加させることができる。
最後に、ドメイン知識を用いて、より微細なサブクラスタが b の小さな値で表されることは有意義であることを示す。
関連論文リスト
- Scalable manifold learning by uniform landmark sampling and constrained
locally linear embedding [0.6144680854063939]
本研究では,大規模・高次元データを効率的に操作できるスケーラブルな多様体学習法を提案する。
異なるタイプの合成データセットと実世界のベンチマークにおけるSCMLの有効性を実証的に検証した。
scMLはデータサイズや埋め込み次元の増大とともにスケールし、グローバル構造を保存する上で有望なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-01-02T08:43:06Z) - T1: Scaling Diffusion Probabilistic Fields to High-Resolution on Unified
Visual Modalities [69.16656086708291]
拡散確率場(DPF)は、距離空間上で定義された連続関数の分布をモデル化する。
本稿では,局所構造学習に着目したビューワイズサンプリングアルゴリズムによる新しいモデルを提案する。
モデルは、複数のモダリティを統一しながら、高解像度のデータを生成するためにスケールすることができる。
論文 参考訳(メタデータ) (2023-05-24T03:32:03Z) - Information-Ordered Bottlenecks for Adaptive Semantic Compression [0.0]
確率で順序付けられた変数に適応的にデータを圧縮するニューラルネットワーク層を提案する。
IOBは与えられたアーキテクチャに対してほぼ最適に圧縮でき、意味論的に意味のある方法で符号化信号を割り当てることができることを示す。
IOBを用いて世界次元を推定するための新しい理論を導入し、複雑な合成データのSOTA次元推定を復元することを示す。
論文 参考訳(メタデータ) (2023-05-18T18:00:00Z) - VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-04-03T13:13:19Z) - Laplacian-based Cluster-Contractive t-SNE for High Dimensional Data
Visualization [20.43471678277403]
本稿では t-SNE に基づく新しいグラフベース次元削減手法 LaptSNE を提案する。
具体的には、LaptSNEはグラフラプラシアンの固有値情報を利用して、低次元埋め込みにおけるポテンシャルクラスタを縮小する。
ラプラシアン合成目的による最適化を考える際には、より広い関心を持つであろう勾配を解析的に計算する方法を示す。
論文 参考訳(メタデータ) (2022-07-25T14:10:24Z) - A geometric framework for outlier detection in high-dimensional data [0.0]
異常検出はデータ分析において重要な課題である。
データセットのメトリック構造を利用するフレームワークを提供する。
この構造を利用することで,高次元データにおける外部観測の検出が大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-07-01T12:07:51Z) - Towards a comprehensive visualization of structure in data [0.0]
本研究では,単一制御パラメータ,すなわちパープレキシティを用いた簡易パラメータ設定により,局所的および大域的データ構造の可視化を効果的に両立させることができることを示す。
また、t-SNEを効率的に並列化し、広範囲にわたるデータ構造を探索するチャンク&ミックスプロトコルを設計した。
論文 参考訳(メタデータ) (2021-11-30T15:43:45Z) - Spatial-Spectral Clustering with Anchor Graph for Hyperspectral Image [88.60285937702304]
本稿では、HSIデータクラスタリングのための空間スペクトルクラスタリングとアンカーグラフ(SSCAG)という新しい非監視アプローチを提案する。
提案されたSSCAGは最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2021-04-24T08:09:27Z) - A Local Similarity-Preserving Framework for Nonlinear Dimensionality
Reduction with Neural Networks [56.068488417457935]
本稿では,Vec2vecという新しい局所非線形手法を提案する。
ニューラルネットワークを訓練するために、マトリックスの近傍類似度グラフを構築し、データポイントのコンテキストを定義します。
8つの実データセットにおけるデータ分類とクラスタリングの実験により、Vec2vecは統計仮説テストにおける古典的な次元削減法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-03-10T23:10:47Z) - Mix Dimension in Poincar\'{e} Geometry for 3D Skeleton-based Action
Recognition [57.98278794950759]
グラフ畳み込みネットワーク(GCN)はすでに、不規則なデータをモデル化する強力な能力を実証している。
本稿では,ポアンカー幾何学を用いて定義した空間時空間GCNアーキテクチャを提案する。
提案手法を,現在最大規模の2つの3次元データセット上で評価する。
論文 参考訳(メタデータ) (2020-07-30T18:23:18Z) - Two-Dimensional Semi-Nonnegative Matrix Factorization for Clustering [50.43424130281065]
TS-NMFと呼ばれる2次元(2次元)データに対する新しい半負行列分解法を提案する。
前処理ステップで2次元データをベクトルに変換することで、データの空間情報に深刻なダメージを与える既存の手法の欠点を克服する。
論文 参考訳(メタデータ) (2020-05-19T05:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。