論文の概要: Learning Genomic Structure from $k$-mers
- arxiv url: http://arxiv.org/abs/2505.16680v1
- Date: Thu, 22 May 2025 13:46:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.336918
- Title: Learning Genomic Structure from $k$-mers
- Title(参考訳): $k$-mersからゲノム構造を学ぶ
- Authors: Filip Thor, Carl Nettelblad,
- Abstract要約: コントラスト学習を用いて読み出しデータを解析する手法を提案する。
エンコーダモデルは、同じゲノム領域から配列をまとめる埋め込みを生成するために訓練される。
モデルはまた、読み取りデータに基づいて完全に自己教師された訓練も可能で、完全なゲノム組立を構築することなく分析が可能である。
- 参考スコア(独自算出の注目度): 2.07180164747172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequencing a genome to determine an individual's DNA produces an enormous number of short nucleotide subsequences known as reads, which must be reassembled to reconstruct the full genome. We present a method for analyzing this type of data using contrastive learning, in which an encoder model is trained to produce embeddings that cluster together sequences from the same genomic region. The sequential nature of genomic regions is preserved in the form of trajectories through this embedding space. Trained solely to reflect the structure of the genome, the resulting model provides a general representation of $k$-mer sequences, suitable for a range of downstream tasks involving read data. We apply our framework to learn the structure of the $E.\ coli$ genome, and demonstrate its use in simulated ancient DNA (aDNA) read mapping and identification of structural variations. Furthermore, we illustrate the potential of using this type of model for metagenomic species identification. We show how incorporating a domain-specific noise model can enhance embedding robustness, and how a supervised contrastive learning setting can be adopted when a linear reference genome is available, by introducing a distance thresholding parameter $\Gamma$. The model can also be trained fully self-supervised on read data, enabling analysis without the need to construct a full genome assembly using specialized algorithms. Small prediction heads based on a pre-trained embedding are shown to perform on par with BWA-aln, the current gold standard approach for aDNA mapping, in terms of accuracy and runtime for short genomes. Given the method's favorable scaling properties with respect to total genome size, inference using our approach is highly promising for metagenomic applications and for mapping to genomes comparable in size to the human genome.
- Abstract(参考訳): 個人のDNAを決定するためにゲノムをシークエンシングすると、読み取りとして知られる膨大な数の短いヌクレオチド配列が生成される。
そこで本研究では,エンコーダモデルを用いて,同じゲノム領域から配列を集約する埋め込みを生成する手法を提案する。
ゲノム領域のシーケンシャルな性質は、この埋め込み空間を通して軌跡の形で保存される。
ゲノムの構造を反映するようにのみ訓練されたこのモデルは、読み取りデータを含む下流のタスクに適合する$k$-mer配列の一般的な表現を提供する。
フレームワークを適用して$Eの構造を学習します。
古代のDNA (aDNA) を模擬し、構造変化のマッピングと同定を行う。
さらに,このモデルを用いたメダゲノミクス種の同定の可能性について述べる。
本稿では, 線形参照ゲノムが利用可能である場合に, 距離閾値パラメータ$\Gamma$を導入することにより, 組込みロバスト性を高め, 教師付きコントラスト学習設定を適用できることを示す。
このモデルは、読み取りデータに基づいて完全に自己教師された訓練も可能で、特殊なアルゴリズムを使って完全なゲノム組立を構築する必要がなくなる。
プレトレーニングされた埋め込みに基づく小さな予測ヘッドは、短いゲノムの精度とランタイムの観点から、現在のaDNAマッピングのゴールドスタンダードアプローチであるBWA-alnと同等に実行される。
本手法は全ゲノムサイズに対して好適なスケーリング特性を考慮し,ヒトゲノムに匹敵するゲノムへのマッピングやメタジノミクスの応用に非常に有望な手法である。
関連論文リスト
- GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。
DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。
textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文 参考訳(メタデータ) (2024-02-12T21:40:45Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z) - Genomic Interpreter: A Hierarchical Genomic Deep Neural Network with 1D
Shifted Window Transformer [4.059849656394191]
Genomic Interpreterはゲノムアッセイ予測のための新しいアーキテクチャである。
モデルはゲノムサイトの階層的依存関係を識別できる。
17K対の38,171のDNAセグメントを含むデータセットで評価される。
論文 参考訳(メタデータ) (2023-06-08T12:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。