論文の概要: Revisiting K-mer Profile for Effective and Scalable Genome Representation Learning
- arxiv url: http://arxiv.org/abs/2411.02125v1
- Date: Mon, 04 Nov 2024 14:36:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:49:00.904317
- Title: Revisiting K-mer Profile for Effective and Scalable Genome Representation Learning
- Title(参考訳): 効果的でスケーラブルなゲノム表現学習のためのK-merプロファイルの再検討
- Authors: Abdulkadir Celikkanat, Andres R. Masegosa, Thomas D. Nielsen,
- Abstract要約: 我々は、k-merをベースとしたゲノムの表現の理論解析を行う。
本稿では,ゲノム読取レベルでメダゲノミクスビニングを行うための軽量でスケーラブルなモデルを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Obtaining effective representations of DNA sequences is crucial for genome analysis. Metagenomic binning, for instance, relies on genome representations to cluster complex mixtures of DNA fragments from biological samples with the aim of determining their microbial compositions. In this paper, we revisit k-mer-based representations of genomes and provide a theoretical analysis of their use in representation learning. Based on the analysis, we propose a lightweight and scalable model for performing metagenomic binning at the genome read level, relying only on the k-mer compositions of the DNA fragments. We compare the model to recent genome foundation models and demonstrate that while the models are comparable in performance, the proposed model is significantly more effective in terms of scalability, a crucial aspect for performing metagenomic binning of real-world datasets.
- Abstract(参考訳): DNA配列を効果的に表現することは、ゲノム解析に不可欠である。
例えば、メタゲノミック・ビニングは、ゲノム表現に依存して、微生物の組成を決定することを目的として、生物学的サンプルからDNA断片の複雑な混合物をクラスターする。
本稿では、k-merをベースとしたゲノム表現を再検討し、その表現学習における使用に関する理論的分析を行う。
そこで本研究では,DNA断片のk-mer組成にのみ依存して,ゲノム読取レベルでメタジノミクスビニングを行うための軽量でスケーラブルなモデルを提案する。
我々は,本モデルと最近のゲノム基盤モデルを比較し,本モデルが性能に匹敵するものの,実際のデータセットのメタジノミック・バイニングを行う上で重要な側面であるスケーラビリティの観点からは,提案モデルの方がはるかに効果的であることを示した。
関連論文リスト
- Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Histo-Genomic Knowledge Distillation For Cancer Prognosis From Histopathology Whole Slide Images [7.5123289730388825]
ゲノムインフォームドハイパーアテンションネットワーク(G-HANet)は、トレーニング中にヒストリーゲノム知識を効果的に蒸留することができる。
ネットワークは、クロスモーダル・アソシエーション・ブランチ(CAB)とハイパーアテンション・サバイバル・ブランチ(HSB)から構成される。
論文 参考訳(メタデータ) (2024-03-15T06:20:09Z) - FGBERT: Function-Driven Pre-trained Gene Language Model for Metagenomics [35.47381119898764]
タンパク質をベースとした遺伝子表現をコンテキスト認識および構造関連トークン化剤として導入する。
MGMとTEM-CLは1億のメダゲノミクス配列を事前訓練した新しいメダゲノミクス言語モデルであるNAMEを構成する。
論文 参考訳(メタデータ) (2024-02-24T13:13:17Z) - Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。
DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。
textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文 参考訳(メタデータ) (2024-02-12T21:40:45Z) - Genetic InfoMax: Exploring Mutual Information Maximization in
High-Dimensional Imaging Genetics Studies [50.11449968854487]
遺伝子ワイド・アソシエーション(GWAS)は、遺伝的変異と特定の形質の関係を同定するために用いられる。
画像遺伝学の表現学習は、GWASによって引き起こされる固有の課題により、ほとんど探索されていない。
本稿では,GWAS の具体的な課題に対処するために,トランスモーダル学習フレームワーク Genetic InfoMax (GIM) を提案する。
論文 参考訳(メタデータ) (2023-09-26T03:59:21Z) - Optimizations of Autoencoders for Analysis and Classification of
Microscopic In Situ Hybridization Images [68.8204255655161]
同様のレベルの遺伝子発現を持つ顕微鏡画像の領域を検出・分類するためのディープラーニングフレームワークを提案する。
分析するデータには教師なし学習モデルが必要です。
論文 参考訳(メタデータ) (2023-04-19T13:45:28Z) - Supervised Learning and Model Analysis with Compositional Data [4.082799056366927]
KernelBiomeはカーネルベースの非パラメトリック回帰分類フレームワークである。
我々は、最先端の機械学習手法と比較して、同等または改善された性能を示す。
論文 参考訳(メタデータ) (2022-05-15T12:33:43Z) - Graph Neural Networks for Microbial Genome Recovery [64.91162205624848]
本稿では,グラフニューラルネットワーク(GNN)を用いて,メダゲノミクスビニングのためのコンティグ表現を学習する際のアセンブリグラフを活用することを提案する。
提案手法であるVaeG-Binは,個々のコンティグの潜在表現を学習するための変分オートエンコーダと,アセンブリグラフ内のコンティグの近傍構造を考慮したGNNを組み合わせる。
論文 参考訳(メタデータ) (2022-04-26T12:49:51Z) - Graph Representation Learning on Tissue-Specific Multi-Omics [0.0]
組織特異的遺伝子間相互作用(GGI)ネットワーク上でリンク予測を行うために,グラフ埋め込みモデル(すなわちVGAE)を利用する。
複数生物のモダリティ(マルチオミクス)の組み合わせは、強力な埋め込みとより良いリンク予測性能をもたらすことを証明した。
論文 参考訳(メタデータ) (2021-07-25T17:38:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。