論文の概要: Index $t$-SNE: Tracking Dynamics of High-Dimensional Datasets with
Coherent Embeddings
- arxiv url: http://arxiv.org/abs/2109.10538v1
- Date: Wed, 22 Sep 2021 06:45:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-23 13:57:24.750891
- Title: Index $t$-SNE: Tracking Dynamics of High-Dimensional Datasets with
Coherent Embeddings
- Title(参考訳): Index $t$-SNE: コヒーレント埋め込みによる高次元データセットの追跡ダイナミクス
- Authors: Ga\"elle Candel, David Naccache
- Abstract要約: 本稿では,クラスタの位置を保存した新しいものを作成するために,埋め込みを再利用する手法を提案する。
提案アルゴリズムは,新しい項目を埋め込むために$t$-SNEと同じ複雑さを持つ。
- 参考スコア(独自算出の注目度): 1.7188280334580195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: $t$-SNE is an embedding method that the data science community has widely Two
interesting characteristics of t-SNE are the structure preservation property
and the answer to the crowding problem, where all neighbors in high dimensional
space cannot be represented correctly in low dimensional space. $t$-SNE
preserves the local neighborhood, and similar items are nicely spaced by
adjusting to the local density. These two characteristics produce a meaningful
representation, where the cluster area is proportional to its size in number,
and relationships between clusters are materialized by closeness on the
embedding.
This algorithm is non-parametric, therefore two initializations of the
algorithm would lead to two different embedding. In a forensic approach,
analysts would like to compare two or more datasets using their embedding. An
approach would be to learn a parametric model over an embedding built with a
subset of data. While this approach is highly scalable, points could be mapped
at the same exact position, making them indistinguishable. This type of model
would be unable to adapt to new outliers nor concept drift.
This paper presents a methodology to reuse an embedding to create a new one,
where cluster positions are preserved. The optimization process minimizes two
costs, one relative to the embedding shape and the second relative to the
support embedding' match. The proposed algorithm has the same complexity than
the original $t$-SNE to embed new items, and a lower one when considering the
embedding of a dataset sliced into sub-pieces. The method showed promising
results on a real-world dataset, allowing to observe the birth, evolution and
death of clusters. The proposed approach facilitates identifying significant
trends and changes, which empowers the monitoring high dimensional datasets'
dynamics.
- Abstract(参考訳): t$-sne は、データサイエンスコミュニティが広く2つの興味深い特徴を持っている埋め込み手法であり、構造保存特性と、高次元空間内のすべての隣人が低次元空間で正しく表現できないような群集問題への答えである。
t$-sneは地元の近所を保存し、同様のアイテムは局所的な密度に合わせることでうまく空間化される。
これらの2つの特徴は有意義な表現を生み出し、クラスタ面積はその大きさに比例し、クラスタ間の関係は埋め込みの密接性によって実現される。
このアルゴリズムは非パラメトリックであるため、アルゴリズムの初期化は2つの異なる埋め込みをもたらす。
法医学的なアプローチでは、埋め込みを使って2つ以上のデータセットを比較したい。
アプローチは、データのサブセットで構築された埋め込みを通じてパラメトリックモデルを学ぶことである。
このアプローチは高度にスケーラブルであるが、ポイントは同じ位置にマッピングすることができ、区別がつかない。
この種のモデルは、新しい外れ値や概念ドリフトに適応できないだろう。
本稿では,クラスタの位置を保存した新しいものを作成するために埋め込みを再利用する手法を提案する。
最適化プロセスは、埋め込み形状に対する2つのコストと、支持埋め込みマッチングに対する2つのコストを最小化する。
提案されたアルゴリズムは、新しいアイテムを組み込むのに元の$t$-sneと同じ複雑さを持ち、サブピースにスライスされたデータセットを組み込む場合の複雑さが低い。
この手法は実世界のデータセットで有望な結果を示し、クラスターの誕生、進化、死を観察できる。
提案手法は重要なトレンドや変化を識別し、高次元データセットのダイナミクスの監視を促進する。
関連論文リスト
- Adaptive $k$-nearest neighbor classifier based on the local estimation of the shape operator [49.87315310656657]
我々は, 局所曲率をサンプルで探索し, 周辺面積を適応的に定義する適応型$k$-nearest(kK$-NN)アルゴリズムを提案する。
多くの実世界のデータセットから、新しい$kK$-NNアルゴリズムは、確立された$k$-NN法と比較してバランスの取れた精度が優れていることが示されている。
論文 参考訳(メタデータ) (2024-09-08T13:08:45Z) - CBMAP: Clustering-based manifold approximation and projection for dimensionality reduction [0.0]
データ次元を減少させるために次元性低減法が用いられる。
本研究は,次元削減のためのクラスタリングに基づくアプローチであるCBMAPを紹介する。
CBMAPは、大域的構造と局所的構造の両方を保存することを目的としており、低次元空間のクラスターが高次元空間のクラスタと密接に類似していることを保証する。
論文 参考訳(メタデータ) (2024-04-27T15:44:21Z) - Distributional Reduction: Unifying Dimensionality Reduction and Clustering with Gromov-Wasserstein [56.62376364594194]
教師なし学習は、潜在的に大きな高次元データセットの基盤構造を捉えることを目的としている。
本研究では、最適輸送のレンズの下でこれらのアプローチを再検討し、Gromov-Wasserstein問題と関係を示す。
これにより、分散還元と呼ばれる新しい一般的なフレームワークが公開され、DRとクラスタリングを特別なケースとして回復し、単一の最適化問題内でそれらに共同で対処することができる。
論文 参考訳(メタデータ) (2024-02-03T19:00:19Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Hierarchical Nearest Neighbor Graph Embedding for Efficient
Dimensionality Reduction [25.67957712837716]
元の空間における1-アレスト近傍グラフ上に構築された階層構造に基づく新しい手法を提案する。
この提案は、t-SNE と UMAP の最新バージョンと競合する最適化のないプロジェクションである。
そこで本論文では,提案手法の健全性について論じ,28~16Kの範囲で1Kから1100万のサンプルと寸法の異なるデータセットの多種多様なコレクション上で評価を行った。
論文 参考訳(メタデータ) (2022-03-24T11:41:16Z) - BikNN: Anomaly Estimation in Bilateral Domains with k-Nearest Neighbors [1.2183405753834562]
本論文では異常推定のための新しい枠組みを提案する。
空間領域と密度領域の両方における異常の程度を推定する。
本手法は,空間領域と密度領域の両方を考慮に入れ,数個のパラメータを手動で調整することで異なるデータセットに適用できる。
論文 参考訳(メタデータ) (2021-05-11T13:45:29Z) - A Local Similarity-Preserving Framework for Nonlinear Dimensionality
Reduction with Neural Networks [56.068488417457935]
本稿では,Vec2vecという新しい局所非線形手法を提案する。
ニューラルネットワークを訓練するために、マトリックスの近傍類似度グラフを構築し、データポイントのコンテキストを定義します。
8つの実データセットにおけるデータ分類とクラスタリングの実験により、Vec2vecは統計仮説テストにおける古典的な次元削減法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-03-10T23:10:47Z) - Kernel Two-Dimensional Ridge Regression for Subspace Clustering [45.651770340521786]
本稿では,2次元データに対する新しいサブスペースクラスタリング手法を提案する。
2Dデータを入力として直接使用するので、表現の学習はデータ固有の構造や関係から恩恵を受ける。
論文 参考訳(メタデータ) (2020-11-03T04:52:46Z) - Two-Dimensional Semi-Nonnegative Matrix Factorization for Clustering [50.43424130281065]
TS-NMFと呼ばれる2次元(2次元)データに対する新しい半負行列分解法を提案する。
前処理ステップで2次元データをベクトルに変換することで、データの空間情報に深刻なダメージを与える既存の手法の欠点を克服する。
論文 参考訳(メタデータ) (2020-05-19T05:54:14Z) - Stochastic Sparse Subspace Clustering [20.30051592270384]
最先端のサブスペースクラスタリング手法は、各データポイントを他のデータポイントの線形結合として表現する自己表現モデルに基づいている。
本稿では,データポイントのランダムなドロップアウトに基づくオーバーセグメンテーションの問題に対処するために,ドロップアウトを導入する。
これにより、スケーラブルで柔軟なスパースサブスペースクラスタリングアプローチ(Sparse Subspace Clustering)が実現される。
論文 参考訳(メタデータ) (2020-05-04T13:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。