論文の概要: EmbedOR: Provable Cluster-Preserving Visualizations with Curvature-Based Stochastic Neighbor Embeddings
- arxiv url: http://arxiv.org/abs/2509.03703v1
- Date: Wed, 03 Sep 2025 20:38:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:09.966534
- Title: EmbedOR: Provable Cluster-Preserving Visualizations with Curvature-Based Stochastic Neighbor Embeddings
- Title(参考訳): Embedor: 曲率に基づく確率的近傍埋め込みを用いた確率的クラスタ保存可視化
- Authors: Tristan Luca Saidi, Abigail Hickok, Bastian Rieck, Andrew J. Blumberg,
- Abstract要約: UMAPやtSNEのような隣の埋め込み(SNE)アルゴリズムは、しばしばノイズや高次元データの幾何学を保存しない視覚化を生成する。
離散グラフ曲率を組み込んだSNEアルゴリズムである Embedor を提案する。
提案手法は,クラスタ構造に着目した曲率拡張距離計を用いて,アルゴリズムでデータを埋め込む。
- 参考スコア(独自算出の注目度): 18.64124104660797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stochastic Neighbor Embedding (SNE) algorithms like UMAP and tSNE often produce visualizations that do not preserve the geometry of noisy and high dimensional data. In particular, they can spuriously separate connected components of the underlying data submanifold and can fail to find clusters in well-clusterable data. To address these limitations, we propose EmbedOR, a SNE algorithm that incorporates discrete graph curvature. Our algorithm stochastically embeds the data using a curvature-enhanced distance metric that emphasizes underlying cluster structure. Critically, we prove that the EmbedOR distance metric extends consistency results for tSNE to a much broader class of datasets. We also describe extensive experiments on synthetic and real data that demonstrate the visualization and geometry-preservation capabilities of EmbedOR. We find that, unlike other SNE algorithms and UMAP, EmbedOR is much less likely to fragment continuous, high-density regions of the data. Finally, we demonstrate that the EmbedOR distance metric can be used as a tool to annotate existing visualizations to identify fragmentation and provide deeper insight into the underlying geometry of the data.
- Abstract(参考訳): UMAPやtSNEのような確率的近傍埋め込み(SNE)アルゴリズムは、しばしばノイズや高次元データの幾何学を保存しない可視化を生成する。
特に、基盤となるデータサブマニフォールドの接続されたコンポーネントを急激に分離することができ、クラスタが適切にクラスタ化可能なデータを見つけるのに失敗する可能性がある。
これらの制約に対処するため、離散グラフ曲率を組み込んだSNEアルゴリズムであるEmbedorを提案する。
提案アルゴリズムは,基礎となるクラスタ構造を重視した曲率拡大距離計を用いて,統計的にデータを埋め込む。
重要なことは、 Embedor 距離測定が tSNE の一貫性結果をより広範なデータセットのクラスに拡張することを証明している。
また、Embedorの可視化と幾何保存能力を示す合成データおよび実データに関する広範な実験について述べる。
他のSNEアルゴリズムやUMAPとは異なり、Embedorはデータの連続した高密度領域を断片化する可能性がはるかに低い。
最後に、EmbedOR距離測定は、既存の視覚化に注釈を付け、断片化を識別し、データの基礎となる幾何学についてより深い洞察を与えるツールとして利用できることを実証する。
関連論文リスト
- Dissecting embedding method: learning higher-order structures from data [0.0]
データ学習のための幾何学的深層学習法は、しばしば特徴空間の幾何学に関する仮定のセットを含む。
これらの仮定と、データが離散的で有限であるという仮定は、いくつかの一般化を引き起こし、データとモデルの出力の間違った解釈を生み出す可能性がある。
論文 参考訳(メタデータ) (2024-10-14T08:19:39Z) - Distributional Reduction: Unifying Dimensionality Reduction and Clustering with Gromov-Wasserstein [56.62376364594194]
教師なし学習は、潜在的に大きな高次元データセットの基盤構造を捉えることを目的としている。
本研究では、最適輸送のレンズの下でこれらのアプローチを再検討し、Gromov-Wasserstein問題と関係を示す。
これにより、分散還元と呼ばれる新しい一般的なフレームワークが公開され、DRとクラスタリングを特別なケースとして回復し、単一の最適化問題内でそれらに共同で対処することができる。
論文 参考訳(メタデータ) (2024-02-03T19:00:19Z) - Datacube segmentation via Deep Spectral Clustering [76.48544221010424]
拡張ビジョン技術は、しばしばその解釈に挑戦する。
データ立方体スペクトルの巨大な次元性は、その統計的解釈において複雑なタスクを生じさせる。
本稿では,符号化空間における教師なしクラスタリング手法の適用の可能性について検討する。
統計的次元削減はアドホック訓練(可変)オートエンコーダで行い、クラスタリング処理は(学習可能な)反復K-Meansクラスタリングアルゴリズムで行う。
論文 参考訳(メタデータ) (2024-01-31T09:31:28Z) - Sampling-enabled scalable manifold learning unveils discriminative cluster structure of high-dimensional data [8.507955301076633]
大規模・高次元データに対して一様および識別的埋め込み(SUDE)を可能にする,サンプリングベースでスケーラブルな多様体学習手法を提案する。
合成データセットと実世界のベンチマークにおけるSUDEの有効性を実証的に検証し, 単細胞データの解析と心電図信号の異常検出に応用した。
論文 参考訳(メタデータ) (2024-01-02T08:43:06Z) - Improving embedding of graphs with missing data by soft manifolds [51.425411400683565]
グラフ埋め込みの信頼性は、連続空間の幾何がグラフ構造とどの程度一致しているかに依存する。
我々は、この問題を解決することができる、ソフト多様体と呼ばれる新しい多様体のクラスを導入する。
グラフ埋め込みにソフト多様体を用いることで、複雑なデータセット上のデータ解析における任意のタスクを追求するための連続空間を提供できる。
論文 参考訳(メタデータ) (2023-11-29T12:48:33Z) - Tight and fast generalization error bound of graph embedding in metric
space [54.279425319381374]
非ユークリッド計量空間へのグラフ埋め込みは、既存の有界よりもはるかに少ない訓練データを持つユークリッド空間におけるグラフ埋め込みよりも優れていることを示す。
我々の新しい上限は、既存の上限よりもかなり強く速く、最大で$R$と$O(frac1S)$に指数関数できる。
論文 参考訳(メタデータ) (2023-05-13T17:29:18Z) - Spatial-Spectral Clustering with Anchor Graph for Hyperspectral Image [88.60285937702304]
本稿では、HSIデータクラスタリングのための空間スペクトルクラスタリングとアンカーグラフ(SSCAG)という新しい非監視アプローチを提案する。
提案されたSSCAGは最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2021-04-24T08:09:27Z) - Interpretable Visualizations with Differentiating Embedding Networks [0.0]
本稿では,新たな非教師付きシームズニューラルネットワークトレーニングシステムと損失関数に基づく,微分埋め込みネットワーク(DEN)を用いた可視化アルゴリズムを提案する。
Siameseのニューラルネットワークは、データセット内の特定のサンプルペア間の差別化や類似した特徴を見つけ、これらの特徴を使用して、データセットを視覚化可能な低次元空間に埋め込む。
DENを解釈するために、可視化の上にエンドツーエンドのパラメトリッククラスタリングアルゴリズムを作成し、次にSHAPスコアを利用して、サンプル空間のどの特徴が重要かを決定する。
論文 参考訳(メタデータ) (2020-06-11T17:30:44Z) - Learning Flat Latent Manifolds with VAEs [16.725880610265378]
本稿では、ユークリッド計量がデータポイント間の類似性のプロキシとなる変分自動エンコーダのフレームワークの拡張を提案する。
我々は、変分オートエンコーダで一般的に使用されるコンパクトな以前のものを、最近発表されたより表現力のある階層型に置き換える。
提案手法は,ビデオ追跡ベンチマークを含む,さまざまなデータセットを用いて評価する。
論文 参考訳(メタデータ) (2020-02-12T09:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。