Fugu-MT 論文翻訳(概要): Learning Genomic Structure from $k$-mers

論文の概要: Learning Genomic Structure from $k$-mers

arxiv url: http://arxiv.org/abs/2505.16680v1
Date: Thu, 22 May 2025 13:46:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-23 17:12:48.336918
Title: Learning Genomic Structure from $k$-mers
Title（参考訳）: $k$-mersからゲノム構造を学ぶ
Authors: Filip Thor, Carl Nettelblad,
Abstract要約: コントラスト学習を用いて読み出しデータを解析する手法を提案する。エンコーダモデルは、同じゲノム領域から配列をまとめる埋め込みを生成するために訓練される。モデルはまた、読み取りデータに基づいて完全に自己教師された訓練も可能で、完全なゲノム組立を構築することなく分析が可能である。
参考スコア（独自算出の注目度）: 2.07180164747172
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Sequencing a genome to determine an individual's DNA produces an enormous number of short nucleotide subsequences known as reads, which must be reassembled to reconstruct the full genome. We present a method for analyzing this type of data using contrastive learning, in which an encoder model is trained to produce embeddings that cluster together sequences from the same genomic region. The sequential nature of genomic regions is preserved in the form of trajectories through this embedding space. Trained solely to reflect the structure of the genome, the resulting model provides a general representation of $k$-mer sequences, suitable for a range of downstream tasks involving read data. We apply our framework to learn the structure of the $E.\ coli$ genome, and demonstrate its use in simulated ancient DNA (aDNA) read mapping and identification of structural variations. Furthermore, we illustrate the potential of using this type of model for metagenomic species identification. We show how incorporating a domain-specific noise model can enhance embedding robustness, and how a supervised contrastive learning setting can be adopted when a linear reference genome is available, by introducing a distance thresholding parameter $\Gamma$. The model can also be trained fully self-supervised on read data, enabling analysis without the need to construct a full genome assembly using specialized algorithms. Small prediction heads based on a pre-trained embedding are shown to perform on par with BWA-aln, the current gold standard approach for aDNA mapping, in terms of accuracy and runtime for short genomes. Given the method's favorable scaling properties with respect to total genome size, inference using our approach is highly promising for metagenomic applications and for mapping to genomes comparable in size to the human genome.
Abstract（参考訳）: 個人のDNAを決定するためにゲノムをシークエンシングすると、読み取りとして知られる膨大な数の短いヌクレオチド配列が生成される。そこで本研究では,エンコーダモデルを用いて,同じゲノム領域から配列を集約する埋め込みを生成する手法を提案する。ゲノム領域のシーケンシャルな性質は、この埋め込み空間を通して軌跡の形で保存される。ゲノムの構造を反映するようにのみ訓練されたこのモデルは、読み取りデータを含む下流のタスクに適合する$k$-mer配列の一般的な表現を提供する。フレームワークを適用して$Eの構造を学習します。古代のDNA (aDNA) を模擬し、構造変化のマッピングと同定を行う。さらに,このモデルを用いたメダゲノミクス種の同定の可能性について述べる。本稿では, 線形参照ゲノムが利用可能である場合に, 距離閾値パラメータ$\Gamma$を導入することにより, 組込みロバスト性を高め, 教師付きコントラスト学習設定を適用できることを示す。このモデルは、読み取りデータに基づいて完全に自己教師された訓練も可能で、特殊なアルゴリズムを使って完全なゲノム組立を構築する必要がなくなる。プレトレーニングされた埋め込みに基づく小さな予測ヘッドは、短いゲノムの精度とランタイムの観点から、現在のaDNAマッピングのゴールドスタンダードアプローチであるBWA-alnと同等に実行される。本手法は全ゲノムサイズに対して好適なスケーリング特性を考慮し,ヒトゲノムに匹敵するゲノムへのマッピングやメタジノミクスの応用に非常に有望な手法である。

関連論文リスト

Hyperbolic Genome Embeddings [0.6656737591902598]
我々は,生物系の進化的インフォームド構造を利用した,双曲型CNNの新しい応用法を開発した。我々の戦略は、配列の重要な性質を識別しながら、明示的な系統マッピングの必要性を回避するものである。われわれの手法は、7つのGUEベンチマークデータセットの最先端性能を超えている。
論文参考訳（メタデータ） (2025-07-29T10:06:17Z)
GRAPE: Heterogeneous Graph Representation Learning for Genetic Perturbation with Coding and Non-Coding Biotype [51.58774936662233]
遺伝子制御ネットワーク(GRN)の構築は、遺伝的摂動の影響を理解し予測するために不可欠である。本研究では,事前学習した大規模言語モデルとDNAシークエンスモデルを用いて,遺伝子記述やDNAシークエンスデータから特徴を抽出する。我々は、遺伝子摂動において初めて遺伝子バイオタイプ情報を導入し、細胞プロセスの制御において異なるバイオタイプを持つ遺伝子の異なる役割をシミュレートした。
論文参考訳（メタデータ） (2025-05-06T03:35:24Z)
GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。 DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文参考訳（メタデータ） (2025-02-11T05:39:49Z)
A Misclassification Network-Based Method for Comparative Genomic Analysis [3.7671415694914927]
メタデータに基づくゲノム配列の分類は、数十年間、比較ゲノム学において活発な研究領域であった。本研究では、AIとネットワークサイエンスのアプローチを統合し、比較ゲノム分析フレームワークを開発する。
論文参考訳（メタデータ） (2024-12-09T23:22:15Z)
Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文参考訳（メタデータ） (2024-07-03T10:31:30Z)
VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文参考訳（メタデータ） (2024-05-13T20:15:03Z)
Efficient and Scalable Fine-Tune of Language Models for Genome Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。 DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。 textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文参考訳（メタデータ） (2024-02-12T21:40:45Z)
HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。 Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文参考訳（メタデータ） (2023-06-27T20:46:34Z)
Genomic Interpreter: A Hierarchical Genomic Deep Neural Network with 1D Shifted Window Transformer [4.059849656394191]
Genomic Interpreterはゲノムアッセイ予測のための新しいアーキテクチャである。モデルはゲノムサイトの階層的依存関係を識別できる。 17K対の38,171のDNAセグメントを含むデータセットで評価される。
論文参考訳（メタデータ） (2023-06-08T12:10:13Z)
Graph Neural Networks for Microbial Genome Recovery [64.91162205624848]
本稿では,グラフニューラルネットワーク(GNN)を用いて,メダゲノミクスビニングのためのコンティグ表現を学習する際のアセンブリグラフを活用することを提案する。提案手法であるVaeG-Binは,個々のコンティグの潜在表現を学習するための変分オートエンコーダと,アセンブリグラフ内のコンティグの近傍構造を考慮したGNNを組み合わせる。
論文参考訳（メタデータ） (2022-04-26T12:49:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。