論文の概要: Comparing Machine Learning Algorithms with or without Feature Extraction
for DNA Classification
- arxiv url: http://arxiv.org/abs/2011.00485v1
- Date: Sun, 1 Nov 2020 12:04:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 23:01:58.170459
- Title: Comparing Machine Learning Algorithms with or without Feature Extraction
for DNA Classification
- Title(参考訳): DNA分類のための機械学習アルゴリズムと特徴抽出の有無の比較
- Authors: Xiangxie Zhang, Ben Beinke, Berlian Al Kindhi and Marco Wiering
- Abstract要約: 3つの最先端アルゴリズム、すなわち、畳み込みニューラルネットワーク、ディープニューラルネットワーク、N-gram確率モデルがDNA分類のタスクに使用される。
本稿では,レベンシュテイン距離とランダムに生成されたDNAサブ配列に基づく特徴抽出手法を提案する。
Covid-19、AIDS、インフルエンザ、C型肝炎などのウイルス性疾患に関する4つのデータセットが、それぞれ異なるアプローチを評価するために使用される。
- 参考スコア(独自算出の注目度): 0.7742297876120561
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The classification of DNA sequences is a key research area in bioinformatics
as it enables researchers to conduct genomic analysis and detect possible
diseases. In this paper, three state-of-the-art algorithms, namely
Convolutional Neural Networks, Deep Neural Networks, and N-gram Probabilistic
Models, are used for the task of DNA classification. Furthermore, we introduce
a novel feature extraction method based on the Levenshtein distance and
randomly generated DNA sub-sequences to compute information-rich features from
the DNA sequences. We also use an existing feature extraction method based on
3-grams to represent amino acids and combine both feature extraction methods
with a multitude of machine learning algorithms. Four different data sets, each
concerning viral diseases such as Covid-19, AIDS, Influenza, and Hepatitis C,
are used for evaluating the different approaches. The results of the
experiments show that all methods obtain high accuracies on the different DNA
datasets. Furthermore, the domain-specific 3-gram feature extraction method
leads in general to the best results in the experiments, while the newly
proposed technique outperforms all other methods on the smallest Covid-19
dataset
- Abstract(参考訳): DNA配列の分類はバイオインフォマティクスにおける重要な研究領域であり、研究者はゲノム解析を行い、病気を検出できる。
本稿では,3つの最先端アルゴリズム,すなわち畳み込みニューラルネットワーク,ディープニューラルネットワーク,N-gram確率モデルを用いてDNA分類を行う。
さらに,レベンシュテイン距離とランダムに生成されたDNAサブシーケンスに基づいて,DNA配列から情報豊富な特徴を抽出する新しい特徴抽出手法を提案する。
また,3-gramに基づく既存の特徴抽出法を用いてアミノ酸を表現し,特徴抽出法と機械学習アルゴリズムを組み合わせる。
Covid-19、AIDS、インフルエンザ、C型肝炎などのウイルス性疾患に関する4つの異なるデータセットを用いて、異なるアプローチを評価する。
実験の結果、全ての手法が異なるDNAデータセット上で高い精度が得られることが示された。
さらに、ドメイン固有の3グラム特徴抽出法は、実験において最も良い結果をもたらすが、新たに提案された手法は、最小のCovid-19データセット上で他のすべての方法より優れている。
関連論文リスト
- Deep Active Learning based Experimental Design to Uncover Synergistic Genetic Interactions for Host Targeted Therapeutics [4.247749070215763]
本稿では,生物知識グラフからの情報を組み込んだDeep Active Learningフレームワークを提案する。
このフレームワークは、探索と探索のトレードオフのバランスを保ち、非常に効果的な二重ノックダウンペアをピンポイントにしながら、タスク特異的な遺伝子表現を生成することができる。
これは、評価可能なスケールの二重遺伝子ノックダウン実験データに対する有望な結果を示す最初の研究である。
論文 参考訳(メタデータ) (2025-02-03T03:03:21Z) - Weighted Diversified Sampling for Efficient Data-Driven Single-Cell Gene-Gene Interaction Discovery [56.622854875204645]
本稿では,遺伝子・遺伝子相互作用の探索に先進的なトランスフォーマーモデルを活用する,データ駆動型計算ツールを活用した革新的なアプローチを提案する。
新たな重み付き多様化サンプリングアルゴリズムは、データセットのたった2パスで、各データサンプルの多様性スコアを算出する。
論文 参考訳(メタデータ) (2024-10-21T03:35:23Z) - DNA Sequence Classification with Compressors [0.0]
本研究は,DNA配列解析に適した圧縮機を用いたパラメータフリー分類法を新たに導入する。
この手法は、精度の観点から現在の最先端と整合するだけでなく、従来の機械学習手法よりもリソース効率の良い代替手段を提供する。
論文 参考訳(メタデータ) (2024-01-25T09:17:19Z) - Single-Cell Deep Clustering Method Assisted by Exogenous Gene
Information: A Novel Approach to Identifying Cell Types [50.55583697209676]
我々は,細胞間のトポロジ的特徴を効率的に捉えるために,注目度の高いグラフオートエンコーダを開発した。
クラスタリング過程において,両情報の集合を統合し,細胞と遺伝子の特徴を再構成し,識別的表現を生成する。
本研究は、細胞の特徴と分布に関する知見を高め、疾患の早期診断と治療の基礎となる。
論文 参考訳(メタデータ) (2023-11-28T09:14:55Z) - MuSe-GNN: Learning Unified Gene Representation From Multimodal
Biological Graph Data [22.938437500266847]
マルチモーダル類似性学習グラフニューラルネットワークという新しいモデルを提案する。
マルチモーダル機械学習とディープグラフニューラルネットワークを組み合わせて、単一セルシークエンシングと空間転写データから遺伝子発現を学習する。
本モデルでは, 遺伝子機能, 組織機能, 疾患, 種進化の解析のために, 統合された遺伝子表現を効率よく生成する。
論文 参考訳(メタデータ) (2023-09-29T13:33:53Z) - DDeMON: Ontology-based function prediction by Deep Learning from Dynamic
Multiplex Networks [0.7349727826230864]
本研究の目的は、遺伝子発現の時間的ダイナミクスとシステムのレベル情報の融合がいかにして新しい遺伝子機能を予測するかを検討することである。
時間依存型多スケール生体情報を用いた関数アノテーションのスケーラブルなシステムレベルの推論手法であるDDeMONを提案する。
論文 参考訳(メタデータ) (2023-02-08T06:53:02Z) - RL-MD: A Novel Reinforcement Learning Approach for DNA Motif Discovery [25.47916517236255]
RL-MDはDNAモチーフ発見タスクのための新しい強化学習に基づくアプローチである。
RL-MDは、乱れのないデータを入力とし、提案した各モチーフを評価するための相対情報に基づく手法を用いて、これらの連続評価結果を報酬として利用する。
実世界のデータからRL-MDが高品質なモチーフを識別できることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2022-09-30T02:07:37Z) - Deep neural networks approach to microbial colony detection -- a
comparative analysis [52.77024349608834]
本稿では,AGARデータセットを用いた3つの深層学習手法の性能について検討する。
得られた結果は将来の実験のベンチマークとして機能するかもしれない。
論文 参考訳(メタデータ) (2021-08-23T12:06:00Z) - Random Features for the Neural Tangent Kernel [57.132634274795066]
完全接続型ReLUネットワークのニューラルタンジェントカーネル(NTK)の効率的な特徴マップ構築を提案する。
得られた特徴の次元は、理論と実践の両方で比較誤差境界を達成するために、他のベースライン特徴マップ構造よりもはるかに小さいことを示しています。
論文 参考訳(メタデータ) (2021-04-03T09:08:12Z) - TSGCNet: Discriminative Geometric Feature Learning with Two-Stream
GraphConvolutional Network for 3D Dental Model Segmentation [141.2690520327948]
2流グラフ畳み込みネットワーク(TSGCNet)を提案し、異なる幾何学的特性から多視点情報を学ぶ。
3次元口腔内スキャナーで得られた歯科モデルのリアルタイムデータセットを用いてTSGCNetの評価を行った。
論文 参考訳(メタデータ) (2020-12-26T08:02:56Z) - Deep Representational Similarity Learning for analyzing neural
signatures in task-based fMRI dataset [81.02949933048332]
本稿では、表現類似度分析(RSA)の深部拡張であるDRSL(Deep Representational similarity Learning)を開発する。
DRSLは、多数の被験者を持つfMRIデータセットにおける様々な認知タスク間の類似性を分析するのに適している。
論文 参考訳(メタデータ) (2020-09-28T18:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。