論文の概要: Informative Initialization and Kernel Selection Improves t-SNE for
Biological Sequences
- arxiv url: http://arxiv.org/abs/2211.09263v1
- Date: Wed, 16 Nov 2022 23:36:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 16:46:20.733385
- Title: Informative Initialization and Kernel Selection Improves t-SNE for
Biological Sequences
- Title(参考訳): 情報初期化と核選択が生物配列のt-sneを改善する
- Authors: Prakash Chourasia, Sarwan Ali, Murray Patterson
- Abstract要約: t分散隣接埋め込み(t-SNE)は、各点を低次元(LD)空間にマッピングすることで高次元(HD)データを解釈する方法である。
カーネル選択がt-SNEの性能において重要な役割を果たすことを示す。
- 参考スコア(独自算出の注目度): 0.966840768820136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The t-distributed stochastic neighbor embedding (t- SNE) is a method for
interpreting high dimensional (HD) data by mapping each point to a low
dimensional (LD) space (usually two-dimensional). It seeks to retain the
structure of the data. An important component of the t-SNE algorithm is the
initialization procedure, which begins with the random initialization of an LD
vector. Points in this initial vector are then updated to minimize the loss
function (the KL divergence) iteratively using gradient descent. This leads
comparable points to attract one another while pushing dissimilar points apart.
We believe that, by default, these algorithms should employ some form of
informative initialization. Another essential component of the t-SNE is using a
kernel matrix, a similarity matrix comprising the pairwise distances among the
sequences. For t-SNE-based visualization, the Gaussian kernel is employed by
default in the literature. However, we show that kernel selection can also play
a crucial role in the performance of t-SNE. In this work, we assess the
performance of t-SNE with various alternative initialization methods and
kernels, using four different sets, out of which three are biological sequences
(nucleotide, protein, etc.) datasets obtained from various sources, such as the
well-known GISAID database for sequences of the SARS- CoV-2 virus. We perform
subjective and objective assessments of these alternatives. We use the
resulting t-SNE plots and k- ary neighborhood agreement (k-ANA) to evaluate and
compare the proposed methods with the baselines. We show that by using
different techniques, such as informed initialization and kernel matrix
selection, that t-SNE performs significantly better. Moreover, we show that
t-SNE also takes fewer iterations to converge faster with more intelligent
initialization.
- Abstract(参考訳): t分散確率的隣接埋め込み(t-SNE)は、各点を低次元(LD)空間(通常は2次元)にマッピングすることで高次元(HD)データを解釈する方法である。
データの構造を維持することを目指している。
t-SNEアルゴリズムの重要な構成要素は、LDベクトルのランダム初期化から始まる初期化手順である。
この初期ベクトルの点が更新され、勾配降下を用いて損失関数(kl分岐)を最小化する。
これにより、同じ点が互いに惹きつけ、異なる点を分割する。
デフォルトでは、これらのアルゴリズムは何らかの情報的初期化を採用するべきだと考えています。
t-SNEのもう1つの必須成分は、配列間の対距離からなる類似性行列であるカーネルマトリックスである。
t-SNEベースの可視化では、ガウスカーネルがデフォルトで文献で使用される。
しかし,カーネル選択はt-SNEの性能において重要な役割を果たすことを示す。
本研究は,SARS-CoV-2ウイルスの塩基配列に対するよく知られたGISAIDデータベースなど,様々なソースから得られた生物配列(ヌクレオチド,タンパク質など)のデータセットを4つの異なるセットを用いて,t-SNEの性能評価を行う。
これらの選択肢の主観的および客観的評価を行う。
得られたt-SNEプロットとk-ary neighborhood agreement(k-ANA)を用いて,提案手法をベースラインと比較した。
情報初期化やカーネル行列選択など,異なる手法を用いることで,t-SNEの性能が大幅に向上することを示す。
さらに,よりインテリジェントな初期化により,t-sneはより少ないイテレーションでより高速に収束できることを示した。
関連論文リスト
- MIK: Modified Isolation Kernel for Biological Sequence Visualization, Classification, and Clustering [3.9146761527401424]
本研究は,ガウスカーネルの代替として,改良分離カーネル (MIK) と呼ばれる新しいアプローチを提案する。
MIKは適応密度推定を用いて局所構造をより正確に捉え、ロバストネス対策を統合する。
局所的および大域的な構造の保存を改善し、組込み空間におけるクラスタとサブクラスタのより良い可視化を可能にする。
論文 参考訳(メタデータ) (2024-10-21T06:57:09Z) - Learning nonparametric DAGs with incremental information via high-order
HSIC [13.061477915002767]
そこで本研究では,DAGを同定するために,親の判断したサブセットに基づく識別可能性条件を提案する。
最適相では、一階のヒルベルト最適独立基準(HSIC)に基づく最適化問題により、推定骨格が初期決定された親部分集合として与えられる。
チューニングフェーズでは、骨格は削除、追加、DAG形式化戦略によって局所的に調整される。
論文 参考訳(メタデータ) (2023-08-11T07:07:21Z) - Kernel t-distributed stochastic neighbor embedding [6.107978190324034]
本稿では,t-SNEアルゴリズムのカーネル化バージョンを提案する。
非ユークリッド計量におけるデータポイント間の対距離を保ちながら、高次元データを低次元空間にマッピングすることができる。
論文 参考訳(メタデータ) (2023-07-13T22:23:05Z) - Towards Better Out-of-Distribution Generalization of Neural Algorithmic
Reasoning Tasks [51.8723187709964]
ニューラルネットワーク推論タスクのOOD一般化について検討する。
目標は、ディープニューラルネットワークを使用して入出力ペアからアルゴリズムを学ぶことである。
論文 参考訳(メタデータ) (2022-11-01T18:33:20Z) - Joint Embedding Self-Supervised Learning in the Kernel Regime [21.80241600638596]
自己教師付き学習(SSL)は、データを分類するためのラベルにアクセスすることなく、データの有用な表現を生成する。
我々はこのフレームワークを拡張し,カーネルの機能空間に作用する線形写像によって埋め込みを構築するカーネル手法に基づくアルゴリズムを組み込む。
カーネルモデルを小さなデータセットで分析し、自己教師付き学習アルゴリズムの共通特徴を特定し、下流タスクにおける性能に関する理論的洞察を得る。
論文 参考訳(メタデータ) (2022-09-29T15:53:19Z) - Efficient Approximate Kernel Based Spike Sequence Classification [56.2938724367661]
SVMのような機械学習モデルは、シーケンスのペア間の距離/相似性の定義を必要とする。
厳密な手法により分類性能は向上するが、計算コストが高い。
本稿では,その予測性能を向上させるために,近似カーネルの性能を改善する一連の方法を提案する。
論文 参考訳(メタデータ) (2022-09-11T22:44:19Z) - Scaling Neural Tangent Kernels via Sketching and Random Features [53.57615759435126]
最近の研究報告では、NTKレグレッションは、小規模データセットでトレーニングされた有限範囲のニューラルネットワークより優れている。
我々は、アークコサインカーネルの拡張をスケッチして、NTKの近距離入力スパーシティ時間近似アルゴリズムを設計する。
CNTKの特徴をトレーニングした線形回帰器が,CIFAR-10データセット上での正確なCNTKの精度と150倍の高速化を実現していることを示す。
論文 参考訳(メタデータ) (2021-06-15T04:44:52Z) - Random Features for the Neural Tangent Kernel [57.132634274795066]
完全接続型ReLUネットワークのニューラルタンジェントカーネル(NTK)の効率的な特徴マップ構築を提案する。
得られた特徴の次元は、理論と実践の両方で比較誤差境界を達成するために、他のベースライン特徴マップ構造よりもはるかに小さいことを示しています。
論文 参考訳(メタデータ) (2021-04-03T09:08:12Z) - Self-supervised Symmetric Nonnegative Matrix Factorization [82.59905231819685]
シンメトリー非負係数行列(SNMF)は、データクラスタリングの強力な方法であることを示した。
より良いクラスタリング結果を求めるアンサンブルクラスタリングにインスパイアされた,自己監視型SNMF(S$3$NMF)を提案する。
SNMFのコード特性に対する感度を、追加情報に頼らずに活用しています。
論文 参考訳(メタデータ) (2021-03-02T12:47:40Z) - Optimal Randomized First-Order Methods for Least-Squares Problems [56.05635751529922]
このアルゴリズムのクラスは、最小二乗問題に対する最も高速な解法のうち、いくつかのランダム化手法を含んでいる。
我々は2つの古典的埋め込み、すなわちガウス射影とアダマール変換のサブサンプリングに焦点を当てる。
得られたアルゴリズムは条件数に依存しない最小二乗問題の解法として最も複雑である。
論文 参考訳(メタデータ) (2020-02-21T17:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。