論文の概要: Out-of-Core Dimensionality Reduction for Large Data via Out-of-Sample Extensions
- arxiv url: http://arxiv.org/abs/2408.04129v1
- Date: Wed, 7 Aug 2024 23:30:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 17:00:24.128756
- Title: Out-of-Core Dimensionality Reduction for Large Data via Out-of-Sample Extensions
- Title(参考訳): サンプル外拡張による大規模データのコア外次元化
- Authors: Luca Reichmann, David Hägele, Daniel Weiskopf,
- Abstract要約: 次元性低減(DR)は、高次元データセットの可視化のための確立されたアプローチである。
本稿では,大規模なデータセット上でDRを実行するために,サンプル外拡張方式を提案する。
5つの共通DRアルゴリズムのプロジェクション品質の評価を行う。
- 参考スコア(独自算出の注目度): 8.368145000145594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dimensionality reduction (DR) is a well-established approach for the visualization of high-dimensional data sets. While DR methods are often applied to typical DR benchmark data sets in the literature, they might suffer from high runtime complexity and memory requirements, making them unsuitable for large data visualization especially in environments outside of high-performance computing. To perform DR on large data sets, we propose the use of out-of-sample extensions. Such extensions allow inserting new data into existing projections, which we leverage to iteratively project data into a reference projection that consists only of a small manageable subset. This process makes it possible to perform DR out-of-core on large data, which would otherwise not be possible due to memory and runtime limitations. For metric multidimensional scaling (MDS), we contribute an implementation with out-of-sample projection capability since typical software libraries do not support it. We provide an evaluation of the projection quality of five common DR algorithms (MDS, PCA, t-SNE, UMAP, and autoencoders) using quality metrics from the literature and analyze the trade-off between the size of the reference set and projection quality. The runtime behavior of the algorithms is also quantified with respect to reference set size, out-of-sample batch size, and dimensionality of the data sets. Furthermore, we compare the out-of-sample approach to other recently introduced DR methods, such as PaCMAP and TriMAP, which claim to handle larger data sets than traditional approaches. To showcase the usefulness of DR on this large scale, we contribute a use case where we analyze ensembles of streamlines amounting to one billion projected instances.
- Abstract(参考訳): 次元性低減(DR)は、高次元データセットの可視化のための確立されたアプローチである。
DR法はしばしば文献の典型的なDRベンチマークデータセットに適用されるが、それらは実行時の複雑性とメモリ要求の増大に悩まされ、特に高性能コンピューティング以外の環境での大規模データ可視化には適さない。
大規模データセット上でDRを実現するために,サンプル外拡張方式を提案する。
このような拡張により、既存のプロジェクションに新しいデータを挿入することができます。
このプロセスは、メモリとランタイムの制限のため、大規模なデータ上でDRアウト・オブ・コアの実行を可能にする。
距離多次元スケーリング(MDS)では、典型的なソフトウェアライブラリではサポートされていないため、サンプル外投影機能の実装に貢献する。
文献の質指標を用いて5つの共通DRアルゴリズム(MDS, PCA, t-SNE, UMAP, オートエンコーダ)の投影品質を評価し, 基準セットのサイズと投影品質のトレードオフを分析する。
アルゴリズムの実行時の挙動は、参照セットのサイズ、サンプル外バッチサイズ、データセットの次元に関しても定量化される。
さらに,従来のアプローチよりも大規模なデータセットを扱うと主張するPaCMAPやTriMAPなど,最近導入された他のDR手法と比較した。
この大規模でDRの有用性を示すために、私たちは10億の投影されたインスタンスのストリームラインのアンサンブルを分析するユースケースに貢献する。
関連論文リスト
- Distributional Reduction: Unifying Dimensionality Reduction and Clustering with Gromov-Wasserstein [56.62376364594194]
教師なし学習は、潜在的に大きな高次元データセットの基盤構造を捉えることを目的としている。
本研究では、最適輸送のレンズの下でこれらのアプローチを再検討し、Gromov-Wasserstein問題と関係を示す。
これにより、分散還元と呼ばれる新しい一般的なフレームワークが公開され、DRとクラスタリングを特別なケースとして回復し、単一の最適化問題内でそれらに共同で対処することができる。
論文 参考訳(メタデータ) (2024-02-03T19:00:19Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - Dimensionality Reduction as Probabilistic Inference [10.714603218784175]
次元性低減(DR)アルゴリズムは、高次元データを低次元表現に圧縮し、データの重要な特徴を保存する。
本稿では,多種多様な古典DRアルゴリズムを確率的推論アルゴリズムとして解釈するProbDR変分フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-15T23:48:59Z) - RENs: Relevance Encoding Networks [0.0]
本稿では,遅延空間に先行する自動相対性決定(ARD)を用いて,データ固有のボトルネック次元を学習する新しい確率的VOEベースのフレームワークであるrelevance encoding network (RENs)を提案する。
提案モデルは,サンプルの表現や生成品質を損なうことなく,関連性のあるボトルネック次元を学習することを示す。
論文 参考訳(メタデータ) (2022-05-25T21:53:48Z) - High Performance Out-of-sample Embedding Techniques for Multidimensional
Scaling [0.5156484100374058]
我々は,大規模なデータに対するMDSアルゴリズムを拡張するために,サンプル外埋め込み(OSE)ソリューションを提案する。
我々は2つのOSE技術を提案する。1つは最適化アプローチに基づくもので、もう1つはニューラルネットワークモデルに基づくものである。
論文 参考訳(メタデータ) (2021-11-07T12:36:33Z) - Visual Cluster Separation Using High-Dimensional Sharpened
Dimensionality Reduction [65.80631307271705]
高次元シャープ化DR(HD-SDR)は、合成データセットと実世界のデータセットの両方で試験される。
提案手法は,高品質(品質指標による測定)を達成し,大規模高次元データを用いて計算的に精度よくスケールする。
具体的な応用を説明するため,近年の天文カタログにHD-SDRを適用した。
論文 参考訳(メタデータ) (2021-10-01T11:13:51Z) - SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。
KRRのストリーミング版であるStreaMRAKを提案する。
本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文 参考訳(メタデータ) (2021-08-23T21:03:09Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z) - A Visual Analytics Framework for Reviewing Multivariate Time-Series Data
with Dimensionality Reduction [19.460188497780155]
次元還元法(DR)は、データ固有の構造と特徴を明らかにするためにしばしば用いられる。
本稿では,時間依存型多変量データ全体の処理を可能にする新しいDRフレームワークであるMulTiDRを提案する。
対照的な学習手法とインタラクティブな可視化を組み合わせることで、我々のフレームワークはDR結果の解釈能力を向上させる。
論文 参考訳(メタデータ) (2020-08-02T04:22:43Z) - Longitudinal Variational Autoencoder [1.4680035572775534]
不足値を含む高次元データを解析するための一般的なアプローチは、変分オートエンコーダ(VAE)を用いた低次元表現を学習することである。
標準的なVAEは、学習した表現はi.d.であり、データサンプル間の相関を捉えることができないと仮定する。
本稿では,多出力加法的ガウス過程(GP)を用いて,構造化された低次元表現を学習するVAEの能力を拡張した縦型VAE(L-VAE)を提案する。
我々の手法は時間変化の共有効果とランダム効果の両方に同時に対応でき、構造化された低次元表現を生成する。
論文 参考訳(メタデータ) (2020-06-17T10:30:14Z) - NCVis: Noise Contrastive Approach for Scalable Visualization [79.44177623781043]
NCVisはノイズコントラスト推定の音響統計的基礎の上に構築された高性能次元減少法である。
NCVisは,他の手法の表現品質を保ちながら,速度の観点から最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-01-30T15:43:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。