論文の概要: Navigating Perplexity: A linear relationship with the data set size in t-SNE embeddings
- arxiv url: http://arxiv.org/abs/2308.15513v2
- Date: Wed, 04 Dec 2024 19:42:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:38:47.303068
- Title: Navigating Perplexity: A linear relationship with the data set size in t-SNE embeddings
- Title(参考訳): パープレキシティをナビゲートする: t-SNE埋め込みにおけるデータセットサイズとの線形関係
- Authors: Martin Skrodzki, Nicolas F. Chaves-de-Plaza, Thomas Höllt, Elmar Eisemann, Klaus Hildebrandt,
- Abstract要約: 本稿では,パープレキシティとデータセットサイズとの線形関係を明らかにする。
パープレキシティが調整された場合,組込みはデータセットのサンプル間で構造的に整合性を維持したままであることを示す。
この線形関係に基づいて, t-SNEによる高次元データの可視化のためのいくつかの応用を概説する。
- 参考スコア(独自算出の注目度): 8.453835290850511
- License:
- Abstract: Widely used pipelines for analyzing high-dimensional data utilize two-dimensional visualizations. These are created, for instance, via t-distributed stochastic neighbor embedding (t-SNE). A crucial element of the t-SNE embedding procedure is the perplexity hyperparameter. That is because the embedding structure varies when perplexity is changed. A suitable perplexity choice depends on the data set and the intended usage for the embedding. Therefore, perplexity is often chosen based on heuristics, intuition, and prior experience. This paper uncovers a linear relationship between perplexity and the data set size. Namely, we show that embeddings remain structurally consistent across data set samples when perplexity is adjusted accordingly. Qualitative and quantitative experimental results support these findings. This informs the visualization process, guiding the user when choosing a perplexity value. Finally, we outline several applications for the visualization of high-dimensional data via t-SNE based on this linear relationship.
- Abstract(参考訳): 高次元データ解析に広く用いられるパイプラインは、二次元可視化を利用する。
これらは例えば、t分散確率的隣人埋め込み(t-SNE)によって生成される。
t-SNE埋め込みプロセスの重要な要素は、パープレキシティハイパーパラメータである。
これは、埋め込み構造がパープレキシティを変更すると変化するためである。
適切なパープレキシティの選択は、データセットと埋め込みのための意図された使用法に依存する。
したがって、パープレキシティはしばしばヒューリスティックス、直観、経験に基づいて選択される。
本稿では,パープレキシティとデータセットサイズとの線形関係を明らかにする。
すなわち、パープレキシティが調整された場合、組込みはデータセットのサンプル間で構造的に一貫したままであることを示す。
定性的かつ定量的な実験結果がこれらの知見を支持している。
これにより、パープレキシティ値を選択する際に、ユーザを誘導する可視化プロセスが通知される。
最後に、この線形関係に基づいて、t-SNEによる高次元データの可視化のためのいくつかの応用を概説する。
関連論文リスト
- Entropic Optimal Transport Eigenmaps for Nonlinear Alignment and Joint Embedding of High-Dimensional Datasets [11.105392318582677]
本稿では,理論的保証付きデータセットの整列と共同埋め込みの原理的アプローチを提案する。
提案手法は,2つのデータセット間のEOT計画行列の先頭特異ベクトルを利用して,それらの共通基盤構造を抽出する。
EOT計画では,高次元状態において,潜伏変数の位置で評価されたカーネル関数を近似することにより,共有多様体構造を復元する。
論文 参考訳(メタデータ) (2024-07-01T18:48:55Z) - ComboStoc: Combinatorial Stochasticity for Diffusion Generative Models [65.82630283336051]
拡散生成モデルの既存のトレーニングスキームにより,次元と属性の組み合わせによって区切られた空間が十分に標本化されていないことを示す。
構造を完全に活用するプロセスを構築し,ComboStocという名前でこの問題に対処する。
論文 参考訳(メタデータ) (2024-05-22T15:23:10Z) - Gradient-Based Feature Learning under Structured Data [57.76552698981579]
異方性設定では、一般的に使用される球面勾配力学は真の方向を回復できないことがある。
バッチ正規化を連想させる適切な重み正規化は、この問題を軽減することができることを示す。
特に、スパイクモデルの下では、勾配に基づくトレーニングのサンプルの複雑さは情報指数とは独立にできる。
論文 参考訳(メタデータ) (2023-09-07T16:55:50Z) - Scalable High-Dimensional Multivariate Linear Regression for
Feature-Distributed Data [0.0]
本稿では,多変量線形回帰を特徴分散データに適用するための2段階緩和グリードアルゴリズムを提案する。
TSRGAの主な利点は、通信の複雑さが特徴次元に依存しないので、非常に大きなデータセットに高いスケーラビリティをもたらすことである。
提案したTSRGAを10-Kレポートから非構造化データを活用する金融アプリケーションに適用する。
論文 参考訳(メタデータ) (2023-07-07T06:24:56Z) - Beyond Individual Input for Deep Anomaly Detection on Tabular Data [0.0]
異常検出は、金融、医療、サイバーセキュリティなど、多くの領域において不可欠である。
私たちの知る限りでは、この機能機能とサンプルサンプル依存関係をうまく組み合わせる最初の作業です。
提案手法は,F1スコアとAUROCをそれぞれ2.4%,AUROCを1.2%上回り,最先端性能を実現している。
論文 参考訳(メタデータ) (2023-05-24T13:13:26Z) - Linking data separation, visual separation, and classifier performance
using pseudo-labeling by contrastive learning [125.99533416395765]
最終分類器の性能は、潜在空間に存在するデータ分離と、射影に存在する視覚的分離に依存すると論じる。
本研究は,ヒト腸管寄生虫の5つの現実的課題の画像データセットを1%の教師付きサンプルで分類し,その結果を実証する。
論文 参考訳(メタデータ) (2023-02-06T10:01:38Z) - Bayesian Interpolation with Deep Linear Networks [92.1721532941863]
ニューラルネットワークの深さ、幅、データセットサイズがモデル品質にどう影響するかを特徴付けることは、ディープラーニング理論における中心的な問題である。
線形ネットワークが無限深度で証明可能な最適予測を行うことを示す。
また、データに依存しない先行法により、広い線形ネットワークにおけるベイズ模型の証拠は無限の深さで最大化されることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:57:46Z) - AVIDA: Alternating method for Visualizing and Integrating Data [1.6637373649145604]
AVIDAはデータアライメントと次元削減を同時に行うためのフレームワークである。
AVIDAは特徴のない高次元データセットを正しく整列することを示す。
一般の応用では、アライメントおよび次元減少加群に他の方法を用いることができる。
論文 参考訳(メタデータ) (2022-05-31T22:36:10Z) - RENs: Relevance Encoding Networks [0.0]
本稿では,遅延空間に先行する自動相対性決定(ARD)を用いて,データ固有のボトルネック次元を学習する新しい確率的VOEベースのフレームワークであるrelevance encoding network (RENs)を提案する。
提案モデルは,サンプルの表現や生成品質を損なうことなく,関連性のあるボトルネック次元を学習することを示す。
論文 参考訳(メタデータ) (2022-05-25T21:53:48Z) - UnProjection: Leveraging Inverse-Projections for Visual Analytics of
High-Dimensional Data [63.74032987144699]
提案するNNInvは,プロジェクションやマッピングの逆を近似する深層学習技術である。
NNInvは、2次元投影空間上の任意の点から高次元データを再構成することを学び、ユーザーは視覚分析システムで学習した高次元表現と対話することができる。
論文 参考訳(メタデータ) (2021-11-02T17:11:57Z) - Revealing the Structure of Deep Neural Networks via Convex Duality [70.15611146583068]
我々は,正規化深層ニューラルネットワーク(DNN)について検討し,隠蔽層の構造を特徴付ける凸解析フレームワークを導入する。
正規正規化学習問題に対する最適隠蔽層重みの集合が凸集合の極点として明確に見出されることを示す。
ホワイトデータを持つ深部ReLUネットワークに同じ特徴を応用し、同じ重み付けが成り立つことを示す。
論文 参考訳(メタデータ) (2020-02-22T21:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。