論文の概要: DNA Sequence Classification with Compressors
- arxiv url: http://arxiv.org/abs/2401.14025v1
- Date: Thu, 25 Jan 2024 09:17:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 15:23:57.859208
- Title: DNA Sequence Classification with Compressors
- Title(参考訳): 圧縮機を用いたDNA配列分類
- Authors: \c{S}\"ukr\"u Ozan
- Abstract要約: 本研究は,DNA配列解析に適した圧縮機を用いたパラメータフリー分類法を新たに導入する。
この手法は、精度の観点から現在の最先端と整合するだけでなく、従来の機械学習手法よりもリソース効率の良い代替手段を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies in DNA sequence classification have leveraged sophisticated
machine learning techniques, achieving notable accuracy in categorizing complex
genomic data. Among these, methods such as k-mer counting have proven effective
in distinguishing sequences from varied species like chimpanzees, dogs, and
humans, becoming a staple in contemporary genomic research. However, these
approaches often demand extensive computational resources, posing a challenge
in terms of scalability and efficiency. Addressing this issue, our study
introduces a novel adaptation of Jiang et al.'s compressor-based,
parameter-free classification method, specifically tailored for DNA sequence
analysis. This innovative approach utilizes a variety of compression
algorithms, such as Gzip, Brotli, and LZMA, to efficiently process and classify
genomic sequences. Not only does this method align with the current
state-of-the-art in terms of accuracy, but it also offers a more
resource-efficient alternative to traditional machine learning methods. Our
comprehensive evaluation demonstrates the proposed method's effectiveness in
accurately classifying DNA sequences from multiple species. We present a
detailed analysis of the performance of each algorithm used, highlighting the
strengths and limitations of our approach in various genomic contexts.
Furthermore, we discuss the broader implications of our findings for
bioinformatics, particularly in genomic data processing and analysis. The
results of our study pave the way for more efficient and scalable DNA sequence
classification methods, offering significant potential for advancements in
genomic research and applications.
- Abstract(参考訳): DNA配列分類の最近の研究は高度な機械学習技術を活用し、複雑なゲノムデータの分類において顕著な精度を実現している。
このうち、k-merカウント法のような手法はチンパンジー、犬、人間といった様々な種の配列を識別するのに有効であることが証明されており、現代のゲノム研究の基盤となっている。
しかしながら、これらのアプローチはしばしば広範な計算資源を必要とし、スケーラビリティと効率の面での課題を提起する。
そこで本研究では,jiangらによるコンプレッサーを用いたパラメータフリー分類法を,dna配列解析に応用した新しい適応法を提案する。
この革新的なアプローチは、gzip、brotli、lzmaなどの様々な圧縮アルゴリズムを使用して、ゲノム配列を効率的に処理し分類する。
この手法は、精度の観点から現在の最先端と整合するだけでなく、従来の機械学習手法よりもリソース効率の良い代替手段を提供する。
本手法は,複数種のDNA配列を正確に分類する上で有効であることを示す。
本稿では,各アルゴリズムの性能を詳細に分析し,様々なゲノム状況下でのアプローチの強みと限界を明らかにする。
さらに,本研究のバイオインフォマティクス,特にゲノムデータ処理および解析における幅広い意義について考察する。
本研究の結果は、より効率的でスケーラブルなDNA配列分類法を開拓し、ゲノム研究と応用の進歩に有意義な可能性を秘めている。
関連論文リスト
- Enhanced Gene Selection in Single-Cell Genomics: Pre-Filtering Synergy and Reinforced Optimization [16.491060073775884]
単一セルゲノミクスにおけるクラスタリングタスクに適用可能な反復的遺伝子パネル選択戦略を提案する。
本手法は、他の遺伝子選択アルゴリズムの結果を統合し、重要な予備的境界を提供する。
強化学習(RL)における探索プロセスの性質と,その連続最適化能力を取り入れた。
論文 参考訳(メタデータ) (2024-06-11T16:21:33Z) - Single-Cell Deep Clustering Method Assisted by Exogenous Gene
Information: A Novel Approach to Identifying Cell Types [50.55583697209676]
我々は,細胞間のトポロジ的特徴を効率的に捉えるために,注目度の高いグラフオートエンコーダを開発した。
クラスタリング過程において,両情報の集合を統合し,細胞と遺伝子の特徴を再構成し,識別的表現を生成する。
本研究は、細胞の特徴と分布に関する知見を高め、疾患の早期診断と治療の基礎となる。
論文 参考訳(メタデータ) (2023-11-28T09:14:55Z) - Fast and Functional Structured Data Generators Rooted in Out-of-Equilibrium Physics [44.97217246897902]
エネルギーモデルを用いて、構造化データセットで高品質なラベル特化データを生成するという課題に対処する。
伝統的な訓練方法は、マルコフ連鎖モンテカルロ混合による困難に遭遇する。
非平衡効果を利用した新しいトレーニングアルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-07-13T15:08:44Z) - Machine Learning Methods for Cancer Classification Using Gene Expression
Data: A Review [77.34726150561087]
がんは心臓血管疾患の2番目の死因である。
遺伝子発現は癌の早期発見において基本的な役割を担っている。
本研究は,機械学習を用いた癌分類における遺伝子発現解析の最近の進歩を概説する。
論文 参考訳(メタデータ) (2023-01-28T15:03:03Z) - Using Signal Processing in Tandem With Adapted Mixture Models for
Classifying Genomic Signals [16.119729980200955]
本稿では,ガウス混合モデルとタンデムの信号処理を併用して,シーケンスのスペクトル表現を改善する手法を提案する。
提案手法は、確立されたベンチマークデータセットに対して、6.06%の精度で類似した最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-11-03T06:10:55Z) - Deep metric learning improves lab of origin prediction of genetically
engineered plasmids [63.05016513788047]
遺伝工学の属性(GEA)は、配列-ラブの関連を作る能力である。
本稿では,計量学習に基づいて,最も可能性の高い実験室をランク付けする手法を提案する。
我々は、特定の実験室のプラスミド配列のキーシグネチャを抽出することができ、モデル出力の解釈可能な検査を可能にする。
論文 参考訳(メタデータ) (2021-11-24T16:29:03Z) - Improving RNA Secondary Structure Design using Deep Reinforcement
Learning [69.63971634605797]
本稿では,RNA配列設計に強化学習を適用した新しいベンチマークを提案する。このベンチマークでは,目的関数を配列の二次構造における自由エネルギーとして定義する。
本稿では,これらのアルゴリズムに対して行うアブレーション解析の結果と,バッチ間でのアルゴリズムの性能を示すグラフを示す。
論文 参考訳(メタデータ) (2021-11-05T02:54:06Z) - Data-Driven Logistic Regression Ensembles With Applications in Genomics [0.0]
本稿では,正規化とアンサンブルのアイデアを組み合わせた高次元二項分類問題に対する新しいアプローチを提案する。
がん,多発性硬化症,乾皮症などの共通疾患を含むいくつかの医学的データセットを用いて,バイオマーカーの予測精度と同定の点で,本手法の優れた性能を実証した。
論文 参考訳(メタデータ) (2021-02-17T05:57:26Z) - Comparing Machine Learning Algorithms with or without Feature Extraction
for DNA Classification [0.7742297876120561]
3つの最先端アルゴリズム、すなわち、畳み込みニューラルネットワーク、ディープニューラルネットワーク、N-gram確率モデルがDNA分類のタスクに使用される。
本稿では,レベンシュテイン距離とランダムに生成されたDNAサブ配列に基づく特徴抽出手法を提案する。
Covid-19、AIDS、インフルエンザ、C型肝炎などのウイルス性疾患に関する4つのデータセットが、それぞれ異なるアプローチを評価するために使用される。
論文 参考訳(メタデータ) (2020-11-01T12:04:54Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。