論文の概要: MIK: Modified Isolation Kernel for Biological Sequence Visualization, Classification, and Clustering
- arxiv url: http://arxiv.org/abs/2410.15688v1
- Date: Mon, 21 Oct 2024 06:57:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:19:48.404415
- Title: MIK: Modified Isolation Kernel for Biological Sequence Visualization, Classification, and Clustering
- Title(参考訳): MIK:生物配列の可視化・分類・クラスタリングのための改良された分離カーネル
- Authors: Sarwan Ali, Prakash Chourasia, Haris Mansoor, Bipin koirala, Murray Patterson,
- Abstract要約: 本研究は,ガウスカーネルの代替として,改良分離カーネル (MIK) と呼ばれる新しいアプローチを提案する。
MIKは適応密度推定を用いて局所構造をより正確に捉え、ロバストネス対策を統合する。
局所的および大域的な構造の保存を改善し、組込み空間におけるクラスタとサブクラスタのより良い可視化を可能にする。
- 参考スコア(独自算出の注目度): 3.9146761527401424
- License:
- Abstract: The t-Distributed Stochastic Neighbor Embedding (t-SNE) has emerged as a popular dimensionality reduction technique for visualizing high-dimensional data. It computes pairwise similarities between data points by default using an RBF kernel and random initialization (in low-dimensional space), which successfully captures the overall structure but may struggle to preserve the local structure efficiently. This research proposes a novel approach called the Modified Isolation Kernel (MIK) as an alternative to the Gaussian kernel, which is built upon the concept of the Isolation Kernel. MIK uses adaptive density estimation to capture local structures more accurately and integrates robustness measures. It also assigns higher similarity values to nearby points and lower values to distant points. Comparative research using the normal Gaussian kernel, the isolation kernel, and several initialization techniques, including random, PCA, and random walk initializations, are used to assess the proposed approach (MIK). Additionally, we compare the computational efficiency of all $3$ kernels with $3$ different initialization methods. Our experimental results demonstrate several advantages of the proposed kernel (MIK) and initialization method selection. It exhibits improved preservation of the local and global structure and enables better visualization of clusters and subclusters in the embedded space. These findings contribute to advancing dimensionality reduction techniques and provide researchers and practitioners with an effective tool for data exploration, visualization, and analysis in various domains.
- Abstract(参考訳): t-Distributed Stochastic Neighbor Embedding (t-SNE) は高次元データを可視化するための一般的な次元削減手法として登場した。
RBFカーネルとランダム初期化(低次元空間)を用いて、デフォルトでデータポイント間のペアワイズ類似性を計算するが、局所構造を効率的に保存するのに苦労する。
本研究は, ガウスカーネルの代替として, 改良分離カーネル (MIK) と呼ばれる新しいアプローチを提案する。
MIKは適応密度推定を用いて局所構造をより正確に捉え、ロバストネス対策を統合する。
また、より高い類似度値を近くの点に割り当て、低い値を遠くの点に割り当てる。
提案手法(MIK)の評価には,正規ガウスカーネル,孤立カーネル,および乱数,PCA,ランダムウォーク初期化を含むいくつかの初期化手法を用いた。
さらに、全ての3ドルカーネルの計算効率を3ドル異なる初期化法と比較する。
実験の結果,提案するカーネル (MIK) と初期化メソッド選択の利点が示された。
局所的および大域的な構造の保存を改善し、組込み空間におけるクラスタとサブクラスタのより良い可視化を可能にする。
これらの知見は次元削減技術の進歩に寄与し、研究者や実践者に様々な領域におけるデータ探索、可視化、分析の効果的なツールを提供する。
関連論文リスト
- MOKD: Cross-domain Finetuning for Few-shot Classification via Maximizing Optimized Kernel Dependence [97.93517982908007]
NCCは、ドメイン間数ショットの分類において、少数ショットの分類が可能なメートル法空間を構築するために表現を学ぶことを目的としている。
本稿では,異なるクラスから得られた2つの標本の NCC 学習表現に高い類似性があることを見出した。
ラベル付きデータによって示されるクラスタ構造にマッチするクラス固有の表現の集合を学習するために、最適化されたカーネル依存(MOKD)を最大化する二段階最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-29T05:59:52Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Informative Initialization and Kernel Selection Improves t-SNE for
Biological Sequences [0.966840768820136]
t分散隣接埋め込み(t-SNE)は、各点を低次元(LD)空間にマッピングすることで高次元(HD)データを解釈する方法である。
カーネル選択がt-SNEの性能において重要な役割を果たすことを示す。
論文 参考訳(メタデータ) (2022-11-16T23:36:27Z) - Joint Embedding Self-Supervised Learning in the Kernel Regime [21.80241600638596]
自己教師付き学習(SSL)は、データを分類するためのラベルにアクセスすることなく、データの有用な表現を生成する。
我々はこのフレームワークを拡張し,カーネルの機能空間に作用する線形写像によって埋め込みを構築するカーネル手法に基づくアルゴリズムを組み込む。
カーネルモデルを小さなデータセットで分析し、自己教師付き学習アルゴリズムの共通特徴を特定し、下流タスクにおける性能に関する理論的洞察を得る。
論文 参考訳(メタデータ) (2022-09-29T15:53:19Z) - Local Sample-weighted Multiple Kernel Clustering with Consensus
Discriminative Graph [73.68184322526338]
マルチカーネルクラスタリング(MKC)は、ベースカーネルの集合から最適な情報融合を実現するためにコミットされる。
本稿では,新しい局所サンプル重み付きマルチカーネルクラスタリングモデルを提案する。
実験により, LSWMKCはより優れた局所多様体表現を有し, 既存のカーネルやグラフベースのクラスタリングアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2022-07-05T05:00:38Z) - Adaptive Local Kernels Formulation of Mutual Information with
Application to Active Post-Seismic Building Damage Inference [1.066048003460524]
地震後の建築物の地域被害評価は高価な作業である。
相互情報の情報理論尺度は,サンプルの有効性を評価する上で最も有効な基準の一つである。
計算コストを削減するためにローカルカーネル戦略が提案されたが、観測されたラベルへのカーネルの適応性は考慮されなかった。
本稿では,観測された出力データに対するカーネルの適合性を実現するための適応型ローカルカーネル手法を開発した。
論文 参考訳(メタデータ) (2021-05-24T18:34:46Z) - Random Features for the Neural Tangent Kernel [57.132634274795066]
完全接続型ReLUネットワークのニューラルタンジェントカーネル(NTK)の効率的な特徴マップ構築を提案する。
得られた特徴の次元は、理論と実践の両方で比較誤差境界を達成するために、他のベースライン特徴マップ構造よりもはるかに小さいことを示しています。
論文 参考訳(メタデータ) (2021-04-03T09:08:12Z) - Determinantal consensus clustering [77.34726150561087]
本稿では,クラスタリングアルゴリズムのランダム再起動における決定点プロセス (DPP) の利用を提案する。
DPPは部分集合内の中心点の多様性を好んでいる。
DPPとは対照的に、この手法は多様性の確保と、すべてのデータフェースについて良好なカバレッジを得るために失敗することを示す。
論文 参考訳(メタデータ) (2021-02-07T23:48:24Z) - Kernel k-Means, By All Means: Algorithms and Strong Consistency [21.013169939337583]
Kernel $k$クラスタリングは、非線形データの教師なし学習のための強力なツールである。
本稿では,最適化された局所解に対処するための一般的な手法を応用した結果を一般化する。
我々のアルゴリズムは、この非線形分離問題をよりよく解くために、Magricalization-minimization (MM) を利用している。
論文 参考訳(メタデータ) (2020-11-12T16:07:18Z) - Kernel learning approaches for summarising and combining posterior
similarity matrices [68.8204255655161]
我々は,ベイズクラスタリングモデルに対するMCMCアルゴリズムの出力を要約するための新しいアプローチを提案するために,後部類似性行列(PSM)の概念を構築した。
我々の研究の重要な貢献は、PSMが正の半定値であり、したがって確率的に動機付けられたカーネル行列を定義するのに使用できることである。
論文 参考訳(メタデータ) (2020-09-27T14:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。