論文の概要: Navigating Perplexity: A linear relationship with the data set size in t-SNE embeddings
- arxiv url: http://arxiv.org/abs/2308.15513v2
- Date: Wed, 04 Dec 2024 19:42:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:38:47.303068
- Title: Navigating Perplexity: A linear relationship with the data set size in t-SNE embeddings
- Title(参考訳): パープレキシティをナビゲートする: t-SNE埋め込みにおけるデータセットサイズとの線形関係
- Authors: Martin Skrodzki, Nicolas F. Chaves-de-Plaza, Thomas Höllt, Elmar Eisemann, Klaus Hildebrandt,
- Abstract要約: 本稿では,パープレキシティとデータセットサイズとの線形関係を明らかにする。
パープレキシティが調整された場合,組込みはデータセットのサンプル間で構造的に整合性を維持したままであることを示す。
この線形関係に基づいて, t-SNEによる高次元データの可視化のためのいくつかの応用を概説する。
- 参考スコア(独自算出の注目度): 8.453835290850511
- License:
- Abstract: Widely used pipelines for analyzing high-dimensional data utilize two-dimensional visualizations. These are created, for instance, via t-distributed stochastic neighbor embedding (t-SNE). A crucial element of the t-SNE embedding procedure is the perplexity hyperparameter. That is because the embedding structure varies when perplexity is changed. A suitable perplexity choice depends on the data set and the intended usage for the embedding. Therefore, perplexity is often chosen based on heuristics, intuition, and prior experience. This paper uncovers a linear relationship between perplexity and the data set size. Namely, we show that embeddings remain structurally consistent across data set samples when perplexity is adjusted accordingly. Qualitative and quantitative experimental results support these findings. This informs the visualization process, guiding the user when choosing a perplexity value. Finally, we outline several applications for the visualization of high-dimensional data via t-SNE based on this linear relationship.
- Abstract(参考訳): 高次元データ解析に広く用いられるパイプラインは、二次元可視化を利用する。
これらは例えば、t分散確率的隣人埋め込み(t-SNE)によって生成される。
t-SNE埋め込みプロセスの重要な要素は、パープレキシティハイパーパラメータである。
これは、埋め込み構造がパープレキシティを変更すると変化するためである。
適切なパープレキシティの選択は、データセットと埋め込みのための意図された使用法に依存する。
したがって、パープレキシティはしばしばヒューリスティックス、直観、経験に基づいて選択される。
本稿では,パープレキシティとデータセットサイズとの線形関係を明らかにする。
すなわち、パープレキシティが調整された場合、組込みはデータセットのサンプル間で構造的に一貫したままであることを示す。
定性的かつ定量的な実験結果がこれらの知見を支持している。
これにより、パープレキシティ値を選択する際に、ユーザを誘導する可視化プロセスが通知される。
最後に、この線形関係に基づいて、t-SNEによる高次元データの可視化のためのいくつかの応用を概説する。
関連論文リスト
- Constructing Gaussian Processes via Samplets [0.0]
最適収束率を持つモデルを特定するために,最近の収束結果について検討する。
本稿では,ガウス過程を効率的に構築・訓練するためのサンプルベースアプローチを提案する。
論文 参考訳(メタデータ) (2024-11-11T18:01:03Z) - Stochastic Marginal Likelihood Gradients using Neural Tangent Kernels [78.6096486885658]
線形化されたラプラス近似に下界を導入する。
これらの境界は漸進的な最適化が可能であり、推定精度と計算複雑性とのトレードオフを可能にする。
論文 参考訳(メタデータ) (2023-06-06T19:02:57Z) - Generative modeling of time-dependent densities via optimal transport
and projection pursuit [3.069335774032178]
本稿では,時間的モデリングのための一般的なディープラーニングアルゴリズムの代替として,安価に提案する。
我々の手法は最先端の解法と比較して非常に競争力がある。
論文 参考訳(メタデータ) (2023-04-19T13:50:13Z) - Transport with Support: Data-Conditional Diffusion Bridges [18.933928516349397]
制約付き時系列データ生成タスクを解決するために,Iterative Smoothing Bridge (ISB)を導入する。
我々は,ISBが高次元データによく一般化し,計算効率が高く,中間時間と終時間における限界値の正確な推定値を提供することを示した。
論文 参考訳(メタデータ) (2023-01-31T13:50:16Z) - FaDIn: Fast Discretized Inference for Hawkes Processes with General
Parametric Kernels [82.53569355337586]
この研究は、有限なサポートを持つ一般パラメトリックカーネルを用いた時間点プロセス推論の効率的な解を提供する。
脳磁図(MEG)により記録された脳信号からの刺激誘発パターンの発生をモデル化し,その有効性を評価する。
その結果,提案手法により,最先端技術よりもパターン遅延の推定精度が向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-10T12:35:02Z) - High Dimensional Level Set Estimation with Bayesian Neural Network [58.684954492439424]
本稿では,ベイズニューラルネットワークを用いた高次元レベル集合推定問題を解く新しい手法を提案する。
各問題に対して対応する理論情報に基づく取得関数を導出してデータポイントをサンプリングする。
合成データセットと実世界データセットの数値実験により,提案手法は既存手法よりも優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2020-12-17T23:21:53Z) - Stochastic Optimization with Laggard Data Pipelines [65.20044914532221]
共通最適化手法の「データ抽出」拡張は同期手法よりも優れた性能を示すことを示す。
具体的には、ミニバッチによる凸最適化において、データエコーは、最適統計率を維持しながら収束率の曲率に支配される部分の高速化をもたらすことを示す。
論文 参考訳(メタデータ) (2020-10-26T14:55:31Z) - Hyperparameter Selection for Subsampling Bootstraps [0.0]
BLBのようなサブサンプリング手法は、大量のデータに対する推定器の品質を評価する強力なツールとして機能する。
サブサンプリング法の性能は,チューニングパラメータの選択によって大きく影響を受ける。
本研究では,サブサンプリング手法のチューニングパラメータの選択に利用できるハイパーパラメータ選択手法を開発した。
シミュレーション研究と実データ解析の両方が,本手法の優位性を証明している。
論文 参考訳(メタデータ) (2020-06-02T17:10:45Z) - Optimizing Vessel Trajectory Compression [71.42030830910227]
前回の研究では,AISの位置情報をオンラインで消費することで,血管軌跡の要約表現を提供するトラジェクトリ検出モジュールを導入しました。
この手法は、生データの少なくとも70%を冗長として廃棄することにより、元のコースからほとんど逸脱しない信頼性の高い軌道合成を提供することができる。
しかし、そのような軌道圧縮はパラメトリゼーションに非常に敏感である。
各容器のタイプを考慮し, 軌道のシナプスを改良する適切な構成を提供する。
論文 参考訳(メタデータ) (2020-05-11T20:38:56Z) - Support recovery and sup-norm convergence rates for sparse pivotal
estimation [79.13844065776928]
高次元スパース回帰では、ピボット推定器は最適な正規化パラメータがノイズレベルに依存しない推定器である。
非滑らかで滑らかな単一タスクとマルチタスク正方形ラッソ型推定器に対するミニマックス超ノルム収束率を示す。
論文 参考訳(メタデータ) (2020-01-15T16:11:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。