論文の概要: Tuning the perplexity for and computing sampling-based t-SNE embeddings
- arxiv url: http://arxiv.org/abs/2308.15513v1
- Date: Tue, 29 Aug 2023 16:24:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-31 16:05:42.905535
- Title: Tuning the perplexity for and computing sampling-based t-SNE embeddings
- Title(参考訳): サンプリングベース t-SNE 埋め込みの複雑度調整と計算
- Authors: Martin Skrodzki, Nicolas Chaves-de-Plaza, Klaus Hildebrandt, Thomas
H\"ollt, Elmar Eisemann
- Abstract要約: サンプルベースの埋め込み手法は,大規模なデータセットで問題を回避することができることを示す。
このアプローチによって計算速度が向上し,組込みの質が向上することを示す。
- 参考スコア(独自算出の注目度): 7.85331971049706
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Widely used pipelines for the analysis of high-dimensional data utilize
two-dimensional visualizations. These are created, e.g., via t-distributed
stochastic neighbor embedding (t-SNE). When it comes to large data sets,
applying these visualization techniques creates suboptimal embeddings, as the
hyperparameters are not suitable for large data. Cranking up these parameters
usually does not work as the computations become too expensive for practical
workflows. In this paper, we argue that a sampling-based embedding approach can
circumvent these problems. We show that hyperparameters must be chosen
carefully, depending on the sampling rate and the intended final embedding.
Further, we show how this approach speeds up the computation and increases the
quality of the embeddings.
- Abstract(参考訳): 二次元可視化を用いた高次元データ解析に広く用いられているパイプライン。
これらは例えば t-distributed stochastic neighborbedding (t-SNE) を通じて生成される。
大規模データセットの場合、ハイパーパラメータが大規模データに適さないため、これらの可視化技術を適用すると、サブオプティマイズな埋め込みが発生する。
これらのパラメータのランク付けは通常、計算が現実的なワークフローに高すぎるため、機能しない。
本稿では,サンプリングに基づく組込み手法がこれらの問題を回避できると主張する。
サンプリングレートや意図した最終埋め込みに応じて,ハイパーパラメータを慎重に選択する必要があることを示す。
さらに,本手法によって計算速度が向上し,組込みの質が向上することを示す。
関連論文リスト
- Entropic Optimal Transport Eigenmaps for Nonlinear Alignment and Joint Embedding of High-Dimensional Datasets [11.105392318582677]
本稿では,理論的保証付きデータセットの整列と共同埋め込みの原理的アプローチを提案する。
提案手法は,2つのデータセット間のEOT計画行列の先頭特異ベクトルを利用して,それらの共通基盤構造を抽出する。
EOT計画では,高次元状態において,潜伏変数の位置で評価されたカーネル関数を近似することにより,共有多様体構造を復元する。
論文 参考訳(メタデータ) (2024-07-01T18:48:55Z) - ComboStoc: Combinatorial Stochasticity for Diffusion Generative Models [65.82630283336051]
拡散生成モデルの既存のトレーニングスキームにより,次元と属性の組み合わせによって区切られた空間が十分に標本化されていないことを示す。
構造を完全に活用するプロセスを構築し,ComboStocという名前でこの問題に対処する。
論文 参考訳(メタデータ) (2024-05-22T15:23:10Z) - Gradient-Based Feature Learning under Structured Data [57.76552698981579]
異方性設定では、一般的に使用される球面勾配力学は真の方向を回復できないことがある。
バッチ正規化を連想させる適切な重み正規化は、この問題を軽減することができることを示す。
特に、スパイクモデルの下では、勾配に基づくトレーニングのサンプルの複雑さは情報指数とは独立にできる。
論文 参考訳(メタデータ) (2023-09-07T16:55:50Z) - Scalable High-Dimensional Multivariate Linear Regression for
Feature-Distributed Data [0.0]
本稿では,多変量線形回帰を特徴分散データに適用するための2段階緩和グリードアルゴリズムを提案する。
TSRGAの主な利点は、通信の複雑さが特徴次元に依存しないので、非常に大きなデータセットに高いスケーラビリティをもたらすことである。
提案したTSRGAを10-Kレポートから非構造化データを活用する金融アプリケーションに適用する。
論文 参考訳(メタデータ) (2023-07-07T06:24:56Z) - Beyond Individual Input for Deep Anomaly Detection on Tabular Data [0.0]
異常検出は、金融、医療、サイバーセキュリティなど、多くの領域において不可欠である。
私たちの知る限りでは、この機能機能とサンプルサンプル依存関係をうまく組み合わせる最初の作業です。
提案手法は,F1スコアとAUROCをそれぞれ2.4%,AUROCを1.2%上回り,最先端性能を実現している。
論文 参考訳(メタデータ) (2023-05-24T13:13:26Z) - Linking data separation, visual separation, and classifier performance
using pseudo-labeling by contrastive learning [125.99533416395765]
最終分類器の性能は、潜在空間に存在するデータ分離と、射影に存在する視覚的分離に依存すると論じる。
本研究は,ヒト腸管寄生虫の5つの現実的課題の画像データセットを1%の教師付きサンプルで分類し,その結果を実証する。
論文 参考訳(メタデータ) (2023-02-06T10:01:38Z) - Bayesian Interpolation with Deep Linear Networks [92.1721532941863]
ニューラルネットワークの深さ、幅、データセットサイズがモデル品質にどう影響するかを特徴付けることは、ディープラーニング理論における中心的な問題である。
線形ネットワークが無限深度で証明可能な最適予測を行うことを示す。
また、データに依存しない先行法により、広い線形ネットワークにおけるベイズ模型の証拠は無限の深さで最大化されることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:57:46Z) - AVIDA: Alternating method for Visualizing and Integrating Data [1.6637373649145604]
AVIDAはデータアライメントと次元削減を同時に行うためのフレームワークである。
AVIDAは特徴のない高次元データセットを正しく整列することを示す。
一般の応用では、アライメントおよび次元減少加群に他の方法を用いることができる。
論文 参考訳(メタデータ) (2022-05-31T22:36:10Z) - RENs: Relevance Encoding Networks [0.0]
本稿では,遅延空間に先行する自動相対性決定(ARD)を用いて,データ固有のボトルネック次元を学習する新しい確率的VOEベースのフレームワークであるrelevance encoding network (RENs)を提案する。
提案モデルは,サンプルの表現や生成品質を損なうことなく,関連性のあるボトルネック次元を学習することを示す。
論文 参考訳(メタデータ) (2022-05-25T21:53:48Z) - UnProjection: Leveraging Inverse-Projections for Visual Analytics of
High-Dimensional Data [63.74032987144699]
提案するNNInvは,プロジェクションやマッピングの逆を近似する深層学習技術である。
NNInvは、2次元投影空間上の任意の点から高次元データを再構成することを学び、ユーザーは視覚分析システムで学習した高次元表現と対話することができる。
論文 参考訳(メタデータ) (2021-11-02T17:11:57Z) - Revealing the Structure of Deep Neural Networks via Convex Duality [70.15611146583068]
我々は,正規化深層ニューラルネットワーク(DNN)について検討し,隠蔽層の構造を特徴付ける凸解析フレームワークを導入する。
正規正規化学習問題に対する最適隠蔽層重みの集合が凸集合の極点として明確に見出されることを示す。
ホワイトデータを持つ深部ReLUネットワークに同じ特徴を応用し、同じ重み付けが成り立つことを示す。
論文 参考訳(メタデータ) (2020-02-22T21:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。