論文の概要: Deep Squared Euclidean Approximation to the Levenshtein Distance for DNA
Storage
- arxiv url: http://arxiv.org/abs/2207.04684v1
- Date: Mon, 11 Jul 2022 07:59:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 16:29:59.242870
- Title: Deep Squared Euclidean Approximation to the Levenshtein Distance for DNA
Storage
- Title(参考訳): dna保存のためのレベンシュテイン距離に対する深い二乗ユークリッド近似
- Authors: Alan J.X. Guo, Cong Liang, Qing-Hu Hou
- Abstract要約: レベンシュテイン距離は、2つのDNA配列の類似性に関する最も適切な測定基準である。
そこで我々は,シームズニューラルネットワーク,2乗ユークリッド埋め込み,チ二乗回帰を用いて,DNA配列に対する新しい2乗ユークリッド埋め込みを提案する。
- 参考スコア(独自算出の注目度): 4.447467536572626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Storing information in DNA molecules is of great interest because of its
advantages in longevity, high storage density, and low maintenance cost. A key
step in the DNA storage pipeline is to efficiently cluster the retrieved DNA
sequences according to their similarities. Levenshtein distance is the most
suitable metric on the similarity between two DNA sequences, but it is inferior
in terms of computational complexity and less compatible with mature clustering
algorithms. In this work, we propose a novel deep squared Euclidean embedding
for DNA sequences using Siamese neural network, squared Euclidean embedding,
and chi-squared regression. The Levenshtein distance is approximated by the
squared Euclidean distance between the embedding vectors, which is fast
calculated and clustering algorithm friendly. The proposed approach is analyzed
theoretically and experimentally. The results show that the proposed embedding
is efficient and robust.
- Abstract(参考訳): 長寿命、高い貯蔵密度、メンテナンスコストの低さから、DNA分子に情報を保持することは大きな関心事である。
DNA保存パイプラインの重要なステップは、検索したDNA配列をそれらの類似性に応じて効率的にクラスタ化することである。
レベンシュテイン距離は2つのDNA配列の類似性で最も適しているが、計算複雑性の点で劣り、成熟したクラスタリングアルゴリズムと互換性が低い。
本研究では,シームズニューラルネットワーク,2乗ユークリッド埋め込み,チ二乗回帰を用いて,DNA配列に対する新しい2乗ユークリッド埋め込みを提案する。
レヴェンシュテイン距離は、埋め込みベクトル間の2乗ユークリッド距離によって近似される。
提案手法は理論的,実験的に解析される。
その結果,提案手法は効率的かつ堅牢であることがわかった。
関連論文リスト
- Fast unsupervised ground metric learning with tree-Wasserstein distance [14.235762519615175]
教師なしの地上距離学習アプローチが導入されました
木にサンプルや特徴を埋め込むことでWSV法を強化し,木-ワッサーシュタイン距離(TWD)を計算することを提案する。
我々は、このアルゴリズムが最もよく知られた方法よりも完全なWSVアプローチの近似に収束し、$mathcalO(n3)$複雑さを持つことを理論的かつ経験的に実証する。
論文 参考訳(メタデータ) (2024-11-11T23:21:01Z) - Levenshtein Distance Embedding with Poisson Regression for DNA Storage [8.943376293527114]
シークエンス埋め込みは、レヴェンシュテイン距離を埋め込みベクトル間の従来の距離にマッピングする。
本稿では,ポアソン回帰を用いたニューラルネットワークを用いた新しいシーケンス埋め込み手法を提案する。
提案手法の最先端手法と比較して,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-13T07:20:27Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Linearized Wasserstein dimensionality reduction with approximation
guarantees [65.16758672591365]
LOT Wassmap は、ワーッサーシュタイン空間の低次元構造を明らかにするための計算可能なアルゴリズムである。
我々は,LOT Wassmapが正しい埋め込みを実現し,サンプルサイズの増加とともに品質が向上することを示す。
また、LOT Wassmapがペア距離計算に依存するアルゴリズムと比較して計算コストを大幅に削減することを示す。
論文 参考訳(メタデータ) (2023-02-14T22:12:16Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - Efficient Approximate Kernel Based Spike Sequence Classification [56.2938724367661]
SVMのような機械学習モデルは、シーケンスのペア間の距離/相似性の定義を必要とする。
厳密な手法により分類性能は向上するが、計算コストが高い。
本稿では,その予測性能を向上させるために,近似カーネルの性能を改善する一連の方法を提案する。
論文 参考訳(メタデータ) (2022-09-11T22:44:19Z) - A density peaks clustering algorithm with sparse search and K-d tree [16.141611031128427]
この問題を解決するために,スパース探索とK-d木を用いた密度ピーククラスタリングアルゴリズムを開発した。
分散特性が異なるデータセット上で、他の5つの典型的なクラスタリングアルゴリズムと比較して実験を行う。
論文 参考訳(メタデータ) (2022-03-02T09:29:40Z) - Density-Based Clustering with Kernel Diffusion [59.4179549482505]
単位$d$次元ユークリッド球のインジケータ関数に対応するナイーブ密度は、密度に基づくクラスタリングアルゴリズムで一般的に使用される。
局所分布特性と滑らかさの異なるデータに適応する新しいカーネル拡散密度関数を提案する。
論文 参考訳(メタデータ) (2021-10-11T09:00:33Z) - Random Features for the Neural Tangent Kernel [57.132634274795066]
完全接続型ReLUネットワークのニューラルタンジェントカーネル(NTK)の効率的な特徴マップ構築を提案する。
得られた特徴の次元は、理論と実践の両方で比較誤差境界を達成するために、他のベースライン特徴マップ構造よりもはるかに小さいことを示しています。
論文 参考訳(メタデータ) (2021-04-03T09:08:12Z) - Efficient approximation of DNA hybridisation using deep learning [0.0]
本研究は,DNAハイブリダイゼーションの予測に応用された機械学習手法の総合的研究である。
機械学習アルゴリズムの広い範囲の使用を可能にする2.5百万以上のデータポイントの合成ハイブリッド化データセットを紹介します。
論文 参考訳(メタデータ) (2021-02-19T19:23:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。