論文の概要: Boosting t-SNE Efficiency for Sequencing Data: Insights from Kernel Selection
- arxiv url: http://arxiv.org/abs/2512.15900v1
- Date: Wed, 17 Dec 2025 19:13:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.784691
- Title: Boosting t-SNE Efficiency for Sequencing Data: Insights from Kernel Selection
- Title(参考訳): シークエンシングデータに対するt-SNE効率の向上:カーネル選択からの洞察
- Authors: Avais Jan, Prakash Chourasia, Sarwan Ali, Murray Patterson,
- Abstract要約: t-distributed Neighbor Embedding (t-SNE)は、高次元生物学的シークエンシングデータの可視化と解析に広く用いられている。
最近の研究は、分離カーネルを代替として提案しているが、配列の類似性を最適に捉えていないかもしれない。
我々は、コサイン類似性カーネルが、異なるデータタイプと埋め込み戦略にまたがる最も堅牢なパフォーマンスを提供することを示した。
- 参考スコア(独自算出の注目度): 7.122236250657051
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Dimensionality reduction techniques are essential for visualizing and analyzing high-dimensional biological sequencing data. t-distributed Stochastic Neighbor Embedding (t-SNE) is widely used for this purpose, traditionally employing the Gaussian kernel to compute pairwise similarities. However, the Gaussian kernel's lack of data-dependence and computational overhead limit its scalability and effectiveness for categorical biological sequences. Recent work proposed the isolation kernel as an alternative, yet it may not optimally capture sequence similarities. In this study, we comprehensively evaluate nine different kernel functions for t-SNE applied to molecular sequences, using three embedding methods: One-Hot Encoding, Spike2Vec, and minimizers. Through both subjective visualization and objective metrics (including neighborhood preservation scores), we demonstrate that the cosine similarity kernel in general outperforms other kernels, including Gaussian and isolation kernels, achieving superior runtime efficiency and better preservation of pairwise distances in low-dimensional space. We further validate our findings through extensive classification and clustering experiments across six diverse biological datasets (Spike7k, Host, ShortRead, Rabies, Genome, and Breast Cancer), employing multiple machine learning algorithms and evaluation metrics. Our results show that kernel selection significantly impacts not only visualization quality but also downstream analytical tasks, with the cosine similarity kernel providing the most robust performance across different data types and embedding strategies, making it particularly suitable for large-scale biological sequence analysis.
- Abstract(参考訳): 高次元生物学的シークエンシングデータの可視化と解析には, 次元低減技術が不可欠である。
t-distributed Stochastic Neighbor Embedding (t-SNE) はこの目的のために広く使われ、伝統的にガウスカーネルを用いてペアの類似性を計算する。
しかし、ガウスカーネルはデータ依存と計算オーバーヘッドの欠如により、分類生物学的シーケンスのスケーラビリティと効率が制限された。
最近の研究は、分離カーネルを代替として提案しているが、配列の類似性を最適に捉えていないかもしれない。
本研究では,分子配列に適用したt-SNEの9つの異なるカーネル関数を,ワンホットエンコーディング,スパイク2Vec,最小化という3つの埋め込み手法を用いて包括的に評価する。
主観的可視化と客観的測度(近距離保存スコアを含む)により,コサイン類似性カーネルはガウスカーネルやアイソレーションカーネルなど他のカーネルよりも優れ,より優れた実行効率と低次元空間における対距離保存を実現していることを示す。
さらに、複数の機械学習アルゴリズムと評価指標を用いて、6つの生物学的データセット(Spike7k、Host、ShortRead、Rabies、Genome、Breast Cancer)にわたる広範な分類とクラスタリング実験を通じて、我々の研究結果を検証した。
その結果、カーネル選択は、可視化品質だけでなく、下流の分析タスクにも大きく影響し、コサイン類似性カーネルは、様々なデータタイプや埋め込み戦略に対して最も堅牢な性能を提供し、大規模生物配列解析に特に適していることがわかった。
関連論文リスト
- Fast and Scalable Gene Embedding Search: A Comparative Study of FAISS and ScaNN [0.3015442485490762]
大規模類似性探索は、ゲノムおよびプロテオミクス配列間の相同性、機能的類似性、新規性を検出するバイオインフォマティクスの基本課題である。
埋め込み型類似性探索法について検討し, 生の配列アライメントを超えて, より深い構造的・機能的パターンを抽出する潜在表現を学習する。
この結果から,メモリと実行効率の両面での計算上の優位性と,検索品質の向上が注目され,従来のアライメント重ツールに代わる有望な代替手段が提供される。
論文 参考訳(メタデータ) (2025-07-22T19:28:54Z) - MIK: Modified Isolation Kernel for Biological Sequence Visualization, Classification, and Clustering [3.9146761527401424]
本研究は,ガウスカーネルの代替として,改良分離カーネル (MIK) と呼ばれる新しいアプローチを提案する。
MIKは適応密度推定を用いて局所構造をより正確に捉え、ロバストネス対策を統合する。
局所的および大域的な構造の保存を改善し、組込み空間におけるクラスタとサブクラスタのより良い可視化を可能にする。
論文 参考訳(メタデータ) (2024-10-21T06:57:09Z) - Optimal Kernel Choice for Score Function-based Causal Discovery [92.65034439889872]
本稿では,データに最も適合する最適なカーネルを自動的に選択する,一般化スコア関数内のカーネル選択手法を提案する。
合成データと実世界のベンチマークの両方で実験を行い,提案手法がカーネル選択法より優れていることを示す。
論文 参考訳(メタデータ) (2024-07-14T09:32:20Z) - Kernel Correlation-Dissimilarity for Multiple Kernel k-Means Clustering [21.685153346752124]
現在の手法は情報多様性を高め、相関性や相似性に基づいて複数のカーネル間の相互依存を利用して冗長性を低減する。
本稿では,カーネルの相関と相似性の両方を体系的に統合する新しい手法を提案する。
カーネル相関と相違点のコヒーレンスを強調することにより,非線形情報抽出のためのより客観的かつ透明な戦略を提供する。
論文 参考訳(メタデータ) (2024-03-06T04:24:43Z) - Equation Discovery with Bayesian Spike-and-Slab Priors and Efficient Kernels [57.46832672991433]
ケルネル学習とBayesian Spike-and-Slab pres (KBASS)に基づく新しい方程式探索法を提案する。
カーネルレグレッションを用いてターゲット関数を推定する。これはフレキシブルで表現力があり、データ空間やノイズに対してより堅牢である。
我々は,効率的な後部推論と関数推定のための予測伝搬予測最大化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-10-09T03:55:09Z) - Multilayer Multiset Neuronal Networks -- MMNNs [55.2480439325792]
本研究は,2層以上の類似性ニューロンを組み込んだ多層神経回路網について述べる。
また,回避すべき画像領域に割り当てられる反プロトタイプ点の利用についても検討した。
論文 参考訳(メタデータ) (2023-08-28T12:55:13Z) - Efficient Convex Algorithms for Universal Kernel Learning [46.573275307034336]
カーネルの理想的な集合: 線形パラメータ化(トラクタビリティ)を認める; すべてのカーネルの集合に密着する(正確性)。
従来のカーネル最適化アルゴリズムは分類に限られており、計算に複雑なセミデフィニティプログラミング(SDP)アルゴリズムに依存していた。
本稿では,従来のSDP手法と比較して計算量を大幅に削減するSVD-QCQPQPアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-15T04:57:37Z) - Efficient Approximate Kernel Based Spike Sequence Classification [56.2938724367661]
SVMのような機械学習モデルは、シーケンスのペア間の距離/相似性の定義を必要とする。
厳密な手法により分類性能は向上するが、計算コストが高い。
本稿では,その予測性能を向上させるために,近似カーネルの性能を改善する一連の方法を提案する。
論文 参考訳(メタデータ) (2022-09-11T22:44:19Z) - Random Features for the Neural Tangent Kernel [57.132634274795066]
完全接続型ReLUネットワークのニューラルタンジェントカーネル(NTK)の効率的な特徴マップ構築を提案する。
得られた特徴の次元は、理論と実践の両方で比較誤差境界を達成するために、他のベースライン特徴マップ構造よりもはるかに小さいことを示しています。
論文 参考訳(メタデータ) (2021-04-03T09:08:12Z) - Learning Compositional Sparse Gaussian Processes with a Shrinkage Prior [26.52863547394537]
本稿では,カーネル選択のスパーシティをホースシュープリアーで処理することにより,カーネル構成を学習するための新しい確率論的アルゴリズムを提案する。
本モデルは,計算時間を大幅に削減した時系列特性をキャプチャし,実世界のデータセット上での競合回帰性能を有する。
論文 参考訳(メタデータ) (2020-12-21T13:41:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。