Fugu-MT 論文翻訳(概要): Tuning the perplexity for and computing sampling-based t-SNE embeddings

論文の概要: Tuning the perplexity for and computing sampling-based t-SNE embeddings

arxiv url: http://arxiv.org/abs/2308.15513v1
Date: Tue, 29 Aug 2023 16:24:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-31 16:05:42.905535
Title: Tuning the perplexity for and computing sampling-based t-SNE embeddings
Title（参考訳）: サンプリングベース t-SNE 埋め込みの複雑度調整と計算
Authors: Martin Skrodzki, Nicolas Chaves-de-Plaza, Klaus Hildebrandt, Thomas H\"ollt, Elmar Eisemann
Abstract要約: サンプルベースの埋め込み手法は,大規模なデータセットで問題を回避することができることを示す。このアプローチによって計算速度が向上し,組込みの質が向上することを示す。
参考スコア（独自算出の注目度）: 7.85331971049706
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Widely used pipelines for the analysis of high-dimensional data utilize two-dimensional visualizations. These are created, e.g., via t-distributed stochastic neighbor embedding (t-SNE). When it comes to large data sets, applying these visualization techniques creates suboptimal embeddings, as the hyperparameters are not suitable for large data. Cranking up these parameters usually does not work as the computations become too expensive for practical workflows. In this paper, we argue that a sampling-based embedding approach can circumvent these problems. We show that hyperparameters must be chosen carefully, depending on the sampling rate and the intended final embedding. Further, we show how this approach speeds up the computation and increases the quality of the embeddings.
Abstract（参考訳）: 二次元可視化を用いた高次元データ解析に広く用いられているパイプライン。これらは例えば t-distributed stochastic neighborbedding (t-SNE) を通じて生成される。大規模データセットの場合、ハイパーパラメータが大規模データに適さないため、これらの可視化技術を適用すると、サブオプティマイズな埋め込みが発生する。これらのパラメータのランク付けは通常、計算が現実的なワークフローに高すぎるため、機能しない。本稿では,サンプリングに基づく組込み手法がこれらの問題を回避できると主張する。サンプリングレートや意図した最終埋め込みに応じて,ハイパーパラメータを慎重に選択する必要があることを示す。さらに,本手法によって計算速度が向上し,組込みの質が向上することを示す。

関連論文リスト

Accelerate Scaling of LLM Finetuning via Quantifying the Coverage and Depth of Instruction Set [37.26992936545316]
スーパーバイドファインチューニング(SFT)に使用されるデータのスケーリングは、モデル性能の比例的なゲインを保証するものではない。この研究は、SFTスケーラビリティを管理する2つの基本的なデータセット特性を特定する。モデルに依存しないデータ選択フレームワークである textbfInformation Landscape Approximation (ILA) を提案する。
論文参考訳（メタデータ） (2025-09-08T09:22:57Z)
Why Can't I See My Clusters? A Precision-Recall Approach to Dimensionality Reduction Validation [46.5272770104348]
次元性低減(DR)は高次元データを可視化するために広く使われており、しばしば期待されるクラスタ構造を明らかにすることを目的としている。既存のDR品質メトリクスは、予測の信頼性(ある程度)やクラスタ構造の品質を評価しますが、期待される構造が欠けている理由を説明していません。本稿では,DR過程を類似性関係をモデル化した関係フェーズと,データの投影を行うマッピングフェーズの2つのフェーズに分割した最近のフレームワークを活用することで,この問題に対処する。
論文参考訳（メタデータ） (2025-09-04T13:53:16Z)
Constructing Gaussian Processes via Samplets [0.0]
最適収束率を持つモデルを特定するために,最近の収束結果について検討する。本稿では,ガウス過程を効率的に構築・訓練するためのサンプルベースアプローチを提案する。
論文参考訳（メタデータ） (2024-11-11T18:01:03Z)
Entropic Optimal Transport Eigenmaps for Nonlinear Alignment and Joint Embedding of High-Dimensional Datasets [11.105392318582677]
本稿では,理論的保証付きデータセットの整列と共同埋め込みの原理的アプローチを提案する。提案手法は,2つのデータセット間のEOT計画行列の先頭特異ベクトルを利用して,それらの共通基盤構造を抽出する。 EOT計画では,高次元状態において,潜伏変数の位置で評価されたカーネル関数を近似することにより,共有多様体構造を復元する。
論文参考訳（メタデータ） (2024-07-01T18:48:55Z)
ComboStoc: Combinatorial Stochasticity for Diffusion Generative Models [65.82630283336051]
拡散生成モデルの既存のトレーニングスキームにより,次元と属性の組み合わせによって区切られた空間が十分に標本化されていないことを示す。構造を完全に活用するプロセスを構築し,ComboStocという名前でこの問題に対処する。
論文参考訳（メタデータ） (2024-05-22T15:23:10Z)
Gradient-Based Feature Learning under Structured Data [57.76552698981579]
異方性設定では、一般的に使用される球面勾配力学は真の方向を回復できないことがある。バッチ正規化を連想させる適切な重み正規化は、この問題を軽減することができることを示す。特に、スパイクモデルの下では、勾配に基づくトレーニングのサンプルの複雑さは情報指数とは独立にできる。
論文参考訳（メタデータ） (2023-09-07T16:55:50Z)
Scalable High-Dimensional Multivariate Linear Regression for Feature-Distributed Data [0.0]
本稿では,多変量線形回帰を特徴分散データに適用するための2段階緩和グリードアルゴリズムを提案する。 TSRGAの主な利点は、通信の複雑さが特徴次元に依存しないので、非常に大きなデータセットに高いスケーラビリティをもたらすことである。提案したTSRGAを10-Kレポートから非構造化データを活用する金融アプリケーションに適用する。
論文参考訳（メタデータ） (2023-07-07T06:24:56Z)
Stochastic Marginal Likelihood Gradients using Neural Tangent Kernels [78.6096486885658]
線形化されたラプラス近似に下界を導入する。これらの境界は漸進的な最適化が可能であり、推定精度と計算複雑性とのトレードオフを可能にする。
論文参考訳（メタデータ） (2023-06-06T19:02:57Z)
Beyond Individual Input for Deep Anomaly Detection on Tabular Data [0.0]
異常検出は、金融、医療、サイバーセキュリティなど、多くの領域において不可欠である。私たちの知る限りでは、この機能機能とサンプルサンプル依存関係をうまく組み合わせる最初の作業です。提案手法は,F1スコアとAUROCをそれぞれ2.4%,AUROCを1.2%上回り,最先端性能を実現している。
論文参考訳（メタデータ） (2023-05-24T13:13:26Z)
Generative modeling of time-dependent densities via optimal transport and projection pursuit [3.069335774032178]
本稿では,時間的モデリングのための一般的なディープラーニングアルゴリズムの代替として,安価に提案する。我々の手法は最先端の解法と比較して非常に競争力がある。
論文参考訳（メタデータ） (2023-04-19T13:50:13Z)
Linking data separation, visual separation, and classifier performance using pseudo-labeling by contrastive learning [125.99533416395765]
最終分類器の性能は、潜在空間に存在するデータ分離と、射影に存在する視覚的分離に依存すると論じる。本研究は,ヒト腸管寄生虫の5つの現実的課題の画像データセットを1%の教師付きサンプルで分類し,その結果を実証する。
論文参考訳（メタデータ） (2023-02-06T10:01:38Z)
Transport with Support: Data-Conditional Diffusion Bridges [18.933928516349397]
制約付き時系列データ生成タスクを解決するために,Iterative Smoothing Bridge (ISB)を導入する。我々は,ISBが高次元データによく一般化し,計算効率が高く,中間時間と終時間における限界値の正確な推定値を提供することを示した。
論文参考訳（メタデータ） (2023-01-31T13:50:16Z)
Bayesian Interpolation with Deep Linear Networks [92.1721532941863]
ニューラルネットワークの深さ、幅、データセットサイズがモデル品質にどう影響するかを特徴付けることは、ディープラーニング理論における中心的な問題である。線形ネットワークが無限深度で証明可能な最適予測を行うことを示す。また、データに依存しない先行法により、広い線形ネットワークにおけるベイズ模型の証拠は無限の深さで最大化されることを示す。
論文参考訳（メタデータ） (2022-12-29T20:57:46Z)
FaDIn: Fast Discretized Inference for Hawkes Processes with General Parametric Kernels [82.53569355337586]
この研究は、有限なサポートを持つ一般パラメトリックカーネルを用いた時間点プロセス推論の効率的な解を提供する。脳磁図(MEG)により記録された脳信号からの刺激誘発パターンの発生をモデル化し,その有効性を評価する。その結果,提案手法により,最先端技術よりもパターン遅延の推定精度が向上することが示唆された。
論文参考訳（メタデータ） (2022-10-10T12:35:02Z)
AVIDA: Alternating method for Visualizing and Integrating Data [1.6637373649145604]
AVIDAはデータアライメントと次元削減を同時に行うためのフレームワークである。 AVIDAは特徴のない高次元データセットを正しく整列することを示す。一般の応用では、アライメントおよび次元減少加群に他の方法を用いることができる。
論文参考訳（メタデータ） (2022-05-31T22:36:10Z)
RENs: Relevance Encoding Networks [0.0]
本稿では,遅延空間に先行する自動相対性決定(ARD)を用いて,データ固有のボトルネック次元を学習する新しい確率的VOEベースのフレームワークであるrelevance encoding network (RENs)を提案する。提案モデルは,サンプルの表現や生成品質を損なうことなく,関連性のあるボトルネック次元を学習することを示す。
論文参考訳（メタデータ） (2022-05-25T21:53:48Z)
UnProjection: Leveraging Inverse-Projections for Visual Analytics of High-Dimensional Data [63.74032987144699]
提案するNNInvは,プロジェクションやマッピングの逆を近似する深層学習技術である。 NNInvは、2次元投影空間上の任意の点から高次元データを再構成することを学び、ユーザーは視覚分析システムで学習した高次元表現と対話することができる。
論文参考訳（メタデータ） (2021-11-02T17:11:57Z)
High Dimensional Level Set Estimation with Bayesian Neural Network [58.684954492439424]
本稿では,ベイズニューラルネットワークを用いた高次元レベル集合推定問題を解く新しい手法を提案する。各問題に対して対応する理論情報に基づく取得関数を導出してデータポイントをサンプリングする。合成データセットと実世界データセットの数値実験により,提案手法は既存手法よりも優れた結果が得られることが示された。
論文参考訳（メタデータ） (2020-12-17T23:21:53Z)
Stochastic Optimization with Laggard Data Pipelines [65.20044914532221]
共通最適化手法の「データ抽出」拡張は同期手法よりも優れた性能を示すことを示す。具体的には、ミニバッチによる凸最適化において、データエコーは、最適統計率を維持しながら収束率の曲率に支配される部分の高速化をもたらすことを示す。
論文参考訳（メタデータ） (2020-10-26T14:55:31Z)
Set Based Stochastic Subsampling [85.5331107565578]
本稿では,2段階間ニューラルサブサンプリングモデルを提案する。画像分類,画像再構成,機能再構築,少数ショット分類など,様々なタスクにおいて,低いサブサンプリング率で関連ベースラインを上回っていることを示す。
論文参考訳（メタデータ） (2020-06-25T07:36:47Z)
Hyperparameter Selection for Subsampling Bootstraps [0.0]
BLBのようなサブサンプリング手法は、大量のデータに対する推定器の品質を評価する強力なツールとして機能する。サブサンプリング法の性能は,チューニングパラメータの選択によって大きく影響を受ける。本研究では,サブサンプリング手法のチューニングパラメータの選択に利用できるハイパーパラメータ選択手法を開発した。シミュレーション研究と実データ解析の両方が,本手法の優位性を証明している。
論文参考訳（メタデータ） (2020-06-02T17:10:45Z)
Optimizing Vessel Trajectory Compression [71.42030830910227]
前回の研究では,AISの位置情報をオンラインで消費することで,血管軌跡の要約表現を提供するトラジェクトリ検出モジュールを導入しました。この手法は、生データの少なくとも70%を冗長として廃棄することにより、元のコースからほとんど逸脱しない信頼性の高い軌道合成を提供することができる。しかし、そのような軌道圧縮はパラメトリゼーションに非常に敏感である。各容器のタイプを考慮し, 軌道のシナプスを改良する適切な構成を提供する。
論文参考訳（メタデータ） (2020-05-11T20:38:56Z)
Revealing the Structure of Deep Neural Networks via Convex Duality [70.15611146583068]
我々は,正規化深層ニューラルネットワーク(DNN)について検討し,隠蔽層の構造を特徴付ける凸解析フレームワークを導入する。正規正規化学習問題に対する最適隠蔽層重みの集合が凸集合の極点として明確に見出されることを示す。ホワイトデータを持つ深部ReLUネットワークに同じ特徴を応用し、同じ重み付けが成り立つことを示す。
論文参考訳（メタデータ） (2020-02-22T21:13:44Z)
Support recovery and sup-norm convergence rates for sparse pivotal estimation [79.13844065776928]
高次元スパース回帰では、ピボット推定器は最適な正規化パラメータがノイズレベルに依存しない推定器である。非滑らかで滑らかな単一タスクとマルチタスク正方形ラッソ型推定器に対するミニマックス超ノルム収束率を示す。
論文参考訳（メタデータ） (2020-01-15T16:11:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。