Fugu-MT 論文翻訳(概要): Defining Reference Sequences for Nocardia Species by Similarity and Clustering Analyses of 16S rRNA Gene Sequence Data

論文の概要: Defining Reference Sequences for Nocardia Species by Similarity and Clustering Analyses of 16S rRNA Gene Sequence Data

arxiv url: http://arxiv.org/abs/2311.17965v1
Date: Wed, 29 Nov 2023 12:09:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-01 19:26:44.323940
Title: Defining Reference Sequences for Nocardia Species by Similarity and Clustering Analyses of 16S rRNA Gene Sequence Data
Title（参考訳）: 16S rRNA遺伝子配列データの類似性とクラスタリングによるノカルディア属の基準配列の決定
Authors: Manal Helal, Fanrong Kong, Sharon C. A. Chen, Michael Bain, Richard Christen, Vitali Sintchenko
Abstract要約: ノカルディアの364種の16S rRNA遺伝子配列を調べた。 LMアルゴリズムは最高性能を達成し、364の16S rRNA配列を80のクラスタに分類した。単純なkNN機械学習は最高性能を示し、92.7%の精度でNocardia種を分類した。
参考スコア（独自算出の注目度）: 0.3262230127283452
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The intra- and inter-species genetic diversity of bacteria and the absence of 'reference', or the most representative, sequences of individual species present a significant challenge for sequence-based identification. The aims of this study were to determine the utility, and compare the performance of several clustering and classification algorithms to identify the species of 364 sequences of 16S rRNA gene with a defined species in GenBank, and 110 sequences of 16S rRNA gene with no defined species, all within the genus Nocardia. A total of 364 16S rRNA gene sequences of Nocardia species were studied. In addition, 110 16S rRNA gene sequences assigned only to the Nocardia genus level at the time of submission to GenBank were used for machine learning classification experiments. Different clustering algorithms were compared with a novel algorithm or the linear mapping (LM) of the distance matrix. Principal Components Analysis was used for the dimensionality reduction and visualization. Results: The LM algorithm achieved the highest performance and classified the set of 364 16S rRNA sequences into 80 clusters, the majority of which (83.52%) corresponded with the original species. The most representative 16S rRNA sequences for individual Nocardia species have been identified as 'centroids' in respective clusters from which the distances to all other sequences were minimized; 110 16S rRNA gene sequences with identifications recorded only at the genus level were classified using machine learning methods. Simple kNN machine learning demonstrated the highest performance and classified Nocardia species sequences with an accuracy of 92.7% and a mean frequency of 0.578.
Abstract（参考訳）: 細菌の種内および種間遺伝的多様性と、最も代表的である「参照」の欠如は、配列に基づく同定において重要な課題である。本研究の目的は,16S rRNA遺伝子の364の配列をGenBankで定義した種,110の配列をNocardia属で同定し,その有効性を判定し,いくつかのクラスタリングおよび分類アルゴリズムの性能を比較することである。ノカルディアの364種の16S rRNA遺伝子配列を調べた。さらに、genbankへの提出時にnocardia属にのみ割り当てられた110個の16s rrna遺伝子配列を機械学習の分類実験に使用した。異なるクラスタリングアルゴリズムを距離行列の新たなアルゴリズムや線形写像(LM)と比較した。主成分分析は次元の減少と可視化に用いられた。結果: LMアルゴリズムは最高性能を達成し, 364の16S rRNA配列を80個のクラスタに分類した。個々のノカルディア種に対して最も代表的な16S rRNA配列は、他の全ての配列との距離を最小化する「センチロイド」として同定され、110の16S rRNA配列は、属レベルでのみ記録された。単純なkNN機械学習は最高性能を示し、92.7%、平均周波数0.578のNocardia種配列を分類した。

関連論文リスト

GRAPE: Heterogeneous Graph Representation Learning for Genetic Perturbation with Coding and Non-Coding Biotype [51.58774936662233]
遺伝子制御ネットワーク(GRN)の構築は、遺伝的摂動の影響を理解し予測するために不可欠である。本研究では,事前学習した大規模言語モデルとDNAシークエンスモデルを用いて,遺伝子記述やDNAシークエンスデータから特徴を抽出する。我々は、遺伝子摂動において初めて遺伝子バイオタイプ情報を導入し、細胞プロセスの制御において異なるバイオタイプを持つ遺伝子の異なる役割をシミュレートした。
論文参考訳（メタデータ） (2025-05-06T03:35:24Z)
Enhancing Downstream Analysis in Genome Sequencing: Species Classification While Basecalling [1.0017486177151396]
本稿では,ヌクレオチド配列の決定と並行して,シークエンシング装置からの信号のプロファイリングを行う手法を提案する。本稿では,共有層に対するモデル重みを組み合わせて,ベースコールと分類の損失を個別にバックプロモートする新たな損失戦略を提案する。我々は最先端のベースコール精度を達成する一方、分類精度は最先端のバイナリ分類器の結果を超えている。
論文参考訳（メタデータ） (2025-04-09T17:30:43Z)
Precision Cancer Classification and Biomarker Identification from mRNA Gene Expression via Dimensionality Reduction and Explainable AI [0.9423257767158634]
本研究では,33種類の異なる癌とその対応する遺伝子群を正確に同定するための包括的パイプラインを提案する。正規化と特徴選択技術を組み合わせて、データセットの次元性を効果的に削減する。我々はExplainable AIを利用して、同定された癌特異的遺伝子の生物学的意義を解明する。
論文参考訳（メタデータ） (2024-10-08T18:56:31Z)
Pan-cancer gene set discovery via scRNA-seq for optimal deep learning based downstream tasks [6.869831177092736]
腫瘍生検181例のscRNA-seqデータを13種類の癌で解析した。高次元重み付き遺伝子共発現ネットワーク解析(hdWGCNA)を行い、関連遺伝子群を同定した。多層パーセプトロン(MLP)やグラフニューラルネットワーク(GNN)を含むディープラーニングモデルを用いたOncoKBのオンコジーンの評価
論文参考訳（メタデータ） (2024-08-13T23:24:36Z)
CGRclust: Chaos Game Representation for Twin Contrastive Clustering of Unlabelled DNA Sequences [0.0]
CGRclustは、DNA配列のChaos Game Representations(CGR)と畳み込みニューラルネットワーク(CNN)を組み合わせた、教師なし双対のコントラストクラスタリングの新規な組み合わせである CGRclustは、DNA配列のクラスタリングデータセットのイメージ分類に教師なし学習を使用する最初の方法である。 CGRclustは、魚類のミトコンドリアDNAゲノムで検査された4つの分類レベル全てで81.70%を超える唯一の方法である。
論文参考訳（メタデータ） (2024-07-01T23:24:05Z)
BEACON: Benchmark for Comprehensive RNA Tasks and Language Models [60.02663015002029]
本稿では、最初の包括的なRNAベンチマークBEACON(textbfBEnchmtextbfArk for textbfCOmprehensive RtextbfNA Task and Language Models)を紹介する。まずBEACONは、構造解析、機能研究、工学的応用を網羅した、これまでの広範囲にわたる研究から導かれた13のタスクから構成される。第2に、CNNのような従来のアプローチや、言語モデルに基づく高度なRNA基盤モデルなど、さまざまなモデルについて検討し、これらのモデルのタスク固有のパフォーマンスに関する貴重な洞察を提供する。第3に、重要なRNA言語モデルコンポーネントについて検討する。
論文参考訳（メタデータ） (2024-06-14T19:39:19Z)
scBiGNN: Bilevel Graph Representation Learning for Cell Type Classification from Single-cell RNA Sequencing Data [62.87454293046843]
グラフニューラルネットワーク(GNN)は、セルタイプの自動分類に広く利用されている。 scBiGNNは2つのGNNモジュールから構成され、細胞型を識別する。 scBiGNNは、scRNA-seqデータから細胞型分類のための様々な方法より優れている。
論文参考訳（メタデータ） (2023-12-16T03:54:26Z)
scHyena: Foundation Model for Full-Length Single-Cell RNA-Seq Analysis in Brain [46.39828178736219]
我々はこれらの課題に対処し、脳内のscRNA-seq解析の精度を高めるために設計された基礎モデルであるscHyenaを紹介する。 scHyenaは、線形適応層、遺伝子埋め込みによる位置エンコーディング、および双方向ハイエナ演算子を備えている。これにより、生データから情報を失うことなく、全長の scRNA-seq データを処理できる。
論文参考訳（メタデータ） (2023-10-04T10:30:08Z)
HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。 Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文参考訳（メタデータ） (2023-06-27T20:46:34Z)
Optirank: classification for RNA-Seq data with optimal ranking reference genes [0.0]
そこで我々は,ロジスティック回帰モデルであるOptiicrankを提案し,モデルと遺伝子のパラメータを同時に学習し,ランキングの基準セットとして使用する。また、列車データと試験データの間に異なる種類の分散シフトを示す実際の分類タスクについても検討する。
論文参考訳（メタデータ） (2023-01-11T10:49:06Z)
Diversifying Design of Nucleic Acid Aptamers Using Unsupervised Machine Learning [54.247560894146105]
短い一本鎖RNAとDNA配列(アプタマー)の逆設計は、一連の望ましい基準を満たす配列を見つけるタスクである。我々は、Pottsモデルとして知られる教師なし機械学習モデルを用いて、制御可能なシーケンスの多様性を持つ新しい有用なシーケンスを発見することを提案する。
論文参考訳（メタデータ） (2022-08-10T13:30:58Z)
Assigning Species Information to Corresponding Genes by a Sequence Labeling Framework [7.231921004060877]
既存の手法は典型的には、本論文における遺伝子と種間の共起に基づく規則に依存している。本研究では,新しい深層学習フレームワークを用いた高性能な手法を開発し,遺伝子と種が関係しているかどうかを分類する。ベンチマークの結果,本手法はルールベースベースライン法と比較すると,かなり高い性能が得られることがわかった。
論文参考訳（メタデータ） (2022-05-08T12:39:45Z)
Multi-modal Self-supervised Pre-training for Regulatory Genome Across Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文参考訳（メタデータ） (2021-10-11T12:48:44Z)
Cancer Gene Profiling through Unsupervised Discovery [49.28556294619424]
低次元遺伝子バイオマーカーを発見するための,新しい,自動かつ教師なしのフレームワークを提案する。本手法は,高次元中心型非監視クラスタリングアルゴリズムLP-Stabilityアルゴリズムに基づく。私達の署名は免疫炎症および免疫砂漠の腫瘍の区別の有望な結果報告します。
論文参考訳（メタデータ） (2021-02-11T09:04:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。