論文の概要: ADRS-CNet: An adaptive dimensionality reduction selection and classification network for DNA storage clustering algorithms
- arxiv url: http://arxiv.org/abs/2408.12751v2
- Date: Sun, 22 Sep 2024 03:10:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 05:37:29.194470
- Title: ADRS-CNet: An adaptive dimensionality reduction selection and classification network for DNA storage clustering algorithms
- Title(参考訳): ADRS-CNet:DNAストレージクラスタリングアルゴリズムのための適応次元削減選択と分類ネットワーク
- Authors: Bowen Liu, Jiankun Li,
- Abstract要約: PCA、UMAP、t-SNEといった手法は、高次元の特徴を低次元空間に投影するために一般的に用いられる。
本稿では,入力DNA配列の特徴を分類する多層パーセプトロンモデルを訓練し,最適次元削減法を適応的に選択する。
- 参考スコア(独自算出の注目度): 8.295062627879938
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: DNA storage technology offers new possibilities for addressing massive data storage due to its high storage density, long-term preservation, low maintenance cost, and compact size. To improve the reliability of stored information, base errors and missing storage sequences are challenges that must be faced. Currently, clustering and comparison of sequenced sequences are employed to recover the original sequence information as much as possible. Nonetheless, extracting DNA sequences of different lengths as features leads to the curse of dimensionality, which needs to be overcome. To address this, techniques like PCA, UMAP, and t-SNE are commonly employed to project high-dimensional features into low-dimensional space. Considering that these methods exhibit varying effectiveness in dimensionality reduction when dealing with different datasets, this paper proposes training a multilayer perceptron model to classify input DNA sequence features and adaptively select the most suitable dimensionality reduction method to enhance subsequent clustering results. Through testing on open-source datasets and comparing our approach with various baseline methods, experimental results demonstrate that our model exhibits superior classification performance and significantly improves clustering outcomes. This displays that our approach effectively mitigates the impact of the curse of dimensionality on clustering models.
- Abstract(参考訳): DNAストレージ技術は、高いストレージ密度、長期保存、低いメンテナンスコスト、コンパクトサイズのために、大量のデータストレージに対処する新たな可能性を提供します。
記憶されている情報の信頼性を向上させるために、ベースエラーと不足するストレージシーケンスは、直面するべき課題である。
現在、元のシーケンス情報を可能な限り回復するために、シーケンスシーケンスのクラスタリングと比較が採用されている。
それでも、異なる長さのDNA配列を特徴として抽出すると、寸法の呪いが生じる。
これを解決するために、PCA、UMAP、t-SNEといった技術は、高次元の特徴を低次元空間に投影するために一般的に用いられる。
そこで本研究では,これらの手法が,異なるデータセットを扱う場合の次元削減に様々な効果を示すことを考慮し,入力DNA配列の特徴を分類するための多層パーセプトロンモデルを訓練し,その後のクラスタリング結果を高めるために最適な次元縮小法を適応的に選択することを提案する。
オープンソースデータセットのテストや,さまざまなベースライン手法との比較を通じて,本モデルが優れた分類性能を示し,クラスタリング結果を大幅に改善することを示す実験結果が得られた。
これにより,クラスタリングモデルに対する次元の呪いの影響を効果的に軽減できることを示す。
関連論文リスト
- Distributional Reduction: Unifying Dimensionality Reduction and Clustering with Gromov-Wasserstein [56.62376364594194]
教師なし学習は、潜在的に大きな高次元データセットの基盤構造を捉えることを目的としている。
本研究では、最適輸送のレンズの下でこれらのアプローチを再検討し、Gromov-Wasserstein問題と関係を示す。
これにより、分散還元と呼ばれる新しい一般的なフレームワークが公開され、DRとクラスタリングを特別なケースとして回復し、単一の最適化問題内でそれらに共同で対処することができる。
論文 参考訳(メタデータ) (2024-02-03T19:00:19Z) - MGAS: Multi-Granularity Architecture Search for Trade-Off Between Model
Effectiveness and Efficiency [10.641875933652647]
我々は,多粒度アーキテクチャサーチ(MGAS)を導入し,効率的かつ効率的なニューラルネットワークを探索する。
各粒度レベル固有の離散化関数を学習し、進化したアーキテクチャに従って単位残率を適応的に決定する。
CIFAR-10、CIFAR-100、ImageNetの大規模な実験により、MGASはモデル性能とモデルサイズとのトレードオフを改善するために、他の最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-23T16:32:18Z) - Implicit Neural Multiple Description for DNA-based data storage [6.423239719448169]
DNAは、ストレージ密度と長期的な安定性のために、データストレージソリューションとして大きな可能性を秘めている。
しかし、この新素材の開発には、特に貯蔵や生物学的操作によるエラーに対処する上で、独自の課題が伴う。
我々は,DNAデータ記憶にニューラルネットワークを利用する,新しい圧縮手法と最先端の多重記述符号化(MDC)技術を開発した。
論文 参考訳(メタデータ) (2023-09-13T13:42:52Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - SparCA: Sparse Compressed Agglomeration for Feature Extraction and
Dimensionality Reduction [0.0]
本稿では,新しい次元縮小法としてスパース圧縮凝集法(SparCA)を提案する。
SparCAは、幅広いデータタイプに適用でき、高度に解釈可能な機能を生成し、下流の教師あり学習タスクで魅力的なパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-01-26T13:59:15Z) - Intrinsic dimension estimation for discrete metrics [65.5438227932088]
本稿では,離散空間に埋め込まれたデータセットの内在次元(ID)を推定するアルゴリズムを提案する。
我々は,その精度をベンチマークデータセットで示すとともに,種鑑定のためのメダゲノミクスデータセットの分析に応用する。
このことは、列の空間の高次元性にもかかわらず、蒸発圧が低次元多様体に作用することを示唆している。
論文 参考訳(メタデータ) (2022-07-20T06:38:36Z) - Distributed Dynamic Safe Screening Algorithms for Sparse Regularization [73.85961005970222]
本稿では,分散動的安全スクリーニング(DDSS)手法を提案し,共有メモリアーキテクチャと分散メモリアーキテクチャにそれぞれ適用する。
提案手法は, 線形収束率を低次複雑度で達成し, 有限個の繰り返しにおいてほとんどすべての不活性な特徴をほぼ確実に除去できることを示す。
論文 参考訳(メタデータ) (2022-04-23T02:45:55Z) - Efficient Cluster-Based k-Nearest-Neighbor Machine Translation [65.69742565855395]
k-Nearest-Neighbor Machine Translation (kNN-MT)は、最近、ニューラルネットワーク翻訳(NMT)におけるドメイン適応のための非パラメトリックソリューションとして提案されている。
論文 参考訳(メタデータ) (2022-04-13T05:46:31Z) - Hybridization of Capsule and LSTM Networks for unsupervised anomaly
detection on multivariate data [0.0]
本稿では,Long-Short-Term-Memory(LSTM)とCapsule Networksを1つのネットワークに結合した新しいNNアーキテクチャを提案する。
提案手法は教師なし学習手法を用いて大量のラベル付きトレーニングデータを見つける際の問題を克服する。
論文 参考訳(メタデータ) (2022-02-11T10:33:53Z) - Consistency and Diversity induced Human Motion Segmentation [231.36289425663702]
本稿では,CDMS(Consistency and Diversity induced Human Motion)アルゴリズムを提案する。
我々のモデルは、ソースとターゲットデータを異なる多層特徴空間に分解する。
ソースとターゲットデータ間の領域ギャップを低減するために、マルチミューチュアル学習戦略を実行する。
論文 参考訳(メタデータ) (2022-02-10T06:23:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。