論文の概要: Mining Negative Sequential Patterns to Improve Viral Genomic Feature Representation and Classification
- arxiv url: http://arxiv.org/abs/2604.25968v1
- Date: Tue, 28 Apr 2026 07:09:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.110744
- Title: Mining Negative Sequential Patterns to Improve Viral Genomic Feature Representation and Classification
- Title(参考訳): ウイルスゲノムの特徴表現と分類を改善するための負のシーケンスパターンのマイニング
- Authors: Wenxi Zhu, Wensheng Gan, Zhenlian Qi,
- Abstract要約: 負配列パターン(NSP)に基づく新しいウイルス分類フレームワークであるGeneNSPClaを提案する。
NSPを数値的特徴ベクトルに変換することにより、GeneNSPClaはウイルス配列における存在と不在の両方のシグナルを効果的に捕捉する。
また、ゲノムデータを処理するための負のパターンマイニングアルゴリズムGONPM+を提案し、より長く生物学的に意味のある負のシーケンシャルパターンを発見できる。
- 参考スコア(独自算出の注目度): 8.118261312080326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Viruses represent the most abundant biological entities on Earth and play a pivotal role in microbial ecosystems, yet, as prominent human pathogens, they are closely linked to human morbidity and mortality. Accurate identification of viral sequences from viral genome sequences is therefore essential, but existing genome-based classification models that largely relying on composition- or frequency-based subsequence features often suffer from limited interpretability and reduced accuracy, particularly on complex or imbalanced datasets. To address these limitations, we propose GeneNSPCla (Genomic Negative Sequential Pattern-based Classification), a novel viral classification framework based on Negative Sequential Patterns (NSPs) that extracts discriminative absence-based features from nucleotide sequences of RNA viral genomes. By transforming these NSPs into numerical feature vectors and integrating them into multiple supervised classifiers, GeneNSPCla effectively captures both presence and absence signals in viral sequences. Furthermore, we propose a negative pattern mining algorithm adapted for processing genomic data: GONPM+, which can discover longer and more biologically meaningful negative sequential patterns. The experimental results demonstrate that the average accuracy of GONPM+ in 8 classifiers has improved by 10.03% compared to the original negative pattern mining algorithm and by 24.75% compared to the positive pattern mining algorithm. These findings highlight the effectiveness of incorporating absence-based sequential information, providing a new and complementary perspective for viral genome analysis and classification.
- Abstract(参考訳): ウイルスは地球上で最も豊富な生物学的存在であり、微生物生態系において重要な役割を担っているが、ヒトの病原体としてヒトの死亡率や死亡率と密接に関連している。
ウイルスゲノム配列からのウイルス配列の正確な同定は不可欠であるが、合成または周波数に基づくサブシーケンスの特徴に大きく依存する既存のゲノムベースの分類モデルは、特に複雑または不均衡なデータセットにおいて、限定的な解釈可能性と精度の低下に悩まされることが多い。
これらの制約に対処するために、RNAウイルスゲノムのヌクレオチド配列から識別的欠失に基づく特徴を抽出するNSP(Negative Sequential Patterns)に基づく新しいウイルス分類フレームワークであるGeneNSPCla(Genomic Negative Sequential Pattern-based Classification)を提案する。
これらのNSPを数値的特徴ベクトルに変換し、それらを複数の教師付き分類器に統合することにより、GeneNSPClaはウイルス配列における存在と不在の両方を効果的に捕捉する。
さらに,ゲノムデータ処理に適応した負のパターンマイニングアルゴリズムGONPM+を提案する。
実験の結果,8つの分類器におけるGONPM+の平均精度は,元の負のパターンマイニングアルゴリズムに比べて10.03%,正のパターンマイニングアルゴリズムより24.75%向上していることがわかった。
これらの知見は、欠失に基づくシーケンシャル情報の導入の有効性を強調し、ウイルスゲノム解析と分類の新しい補完的な視点を提供する。
関連論文リスト
- Attribution assignment for deep-generative sequence models enables interpretability analysis using positive-only data [3.246305861471588]
生成機械学習モデルは、望ましい性質に富んだ生物配列の広い空間を効率的に探索することで、治療設計のための強力なフレームワークを提供する。
正のラベル付きデータと負のラベル付きデータの両方を必要とする教師付き学習法とは異なり、LSTMのような生成モデルは、正のラベル付きシーケンスのみに基づいて訓練することができる。
生成モデルへの帰属方法の欠如は、そのようなモデルから解釈可能な生物学的洞察を抽出する能力を妨げている。
本研究では,GAMA(Generative Attribution Metric Analysis)を開発した。
論文 参考訳(メタデータ) (2025-06-29T10:50:46Z) - Enhancing Downstream Analysis in Genome Sequencing: Species Classification While Basecalling [1.0017486177151396]
本稿では,ヌクレオチド配列の決定と並行して,シークエンシング装置からの信号のプロファイリングを行う手法を提案する。
本稿では,共有層に対するモデル重みを組み合わせて,ベースコールと分類の損失を個別にバックプロモートする新たな損失戦略を提案する。
我々は最先端のベースコール精度を達成する一方、分類精度は最先端のバイナリ分類器の結果を超えている。
論文 参考訳(メタデータ) (2025-04-09T17:30:43Z) - Interpretable Graph Kolmogorov-Arnold Networks for Multi-Cancer Classification and Biomarker Identification using Multi-Omics Data [36.92842246372894]
Multi-Omics Graph Kolmogorov-Arnold Network (MOGKAN)は、メッセンジャーRNA、マイクロRNA配列、DNAメチル化サンプルを利用するディープラーニングフレームワークである。
グラフに基づく深層学習とマルチオミクスデータを統合することにより,提案手法は頑健な予測性能と解釈可能性を示す。
論文 参考訳(メタデータ) (2025-03-29T02:14:05Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Multi-Modal and Multi-Attribute Generation of Single Cells with CFGen [76.02070962797794]
本研究では、単一セルデータ固有の離散性を保存するフローベースの条件生成モデルであるCellFlow for Generation (CFGen)を紹介する。
CFGenは、全ゲノムマルチモーダル単一セルデータを確実に生成し、重要な生物学的データ特性の回復を改善する。
論文 参考訳(メタデータ) (2024-07-16T14:05:03Z) - Single-Cell Deep Clustering Method Assisted by Exogenous Gene
Information: A Novel Approach to Identifying Cell Types [50.55583697209676]
我々は,細胞間のトポロジ的特徴を効率的に捉えるために,注目度の高いグラフオートエンコーダを開発した。
クラスタリング過程において,両情報の集合を統合し,細胞と遺伝子の特徴を再構成し,識別的表現を生成する。
本研究は、細胞の特徴と分布に関する知見を高め、疾患の早期診断と治療の基礎となる。
論文 参考訳(メタデータ) (2023-11-28T09:14:55Z) - Fast and Functional Structured Data Generators Rooted in Out-of-Equilibrium Physics [44.97217246897902]
エネルギーモデルを用いて、構造化データセットで高品質なラベル特化データを生成するという課題に対処する。
伝統的な訓練方法は、マルコフ連鎖モンテカルロ混合による困難に遭遇する。
非平衡効果を利用した新しいトレーニングアルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-07-13T15:08:44Z) - MutaGAN: A Seq2seq GAN Framework to Predict Mutations of Evolving
Protein Populations [0.0]
このディープラーニングフレームワークの理想的なテストケースとしてインフルエンザウイルス配列が同定された。
MutaGANは、中央のレベンシュテイン距離が2.00アミノ酸である与えられた「親」タンパク質配列から「子」配列を生成した。
結果は, 病原体予測を補助する MutaGAN フレームワークの能力が, タンパク質集団の進化予測に広く有用であることを示すものである。
論文 参考訳(メタデータ) (2020-08-26T20:20:30Z) - Statistical Linear Models in Virus Genomic Alignment-free Classification: Application to Hepatitis C Viruses [2.900522306460408]
本研究は, 遺伝子タイピングおよび部分的および完全ゲノムのサブタイプにおける線形分類器の力について検討した。
C型肝炎ウイルス(HCV)に応用される。
全体として、いくつかの分類器は実験変数の正確な組み合わせのセットを与えられた上でうまく機能する。
論文 参考訳(メタデータ) (2019-10-11T21:40:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。