論文の概要: FGBERT: Function-Driven Pre-trained Gene Language Model for Metagenomics
- arxiv url: http://arxiv.org/abs/2402.16901v2
- Date: Fri, 27 Dec 2024 06:40:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:22:57.742222
- Title: FGBERT: Function-Driven Pre-trained Gene Language Model for Metagenomics
- Title(参考訳): FGBERT:メタゲノミクスのための関数駆動型事前訓練された遺伝子言語モデル
- Authors: ChenRui Duan, Zelin Zang, Yongjie Xu, Hang He, Zihan Liu, Siyuan Li, Zijia Song, Ju-Sheng Zheng, Stan Z. Li,
- Abstract要約: FGBERTは、タンパク質に基づく遺伝子表現を文脈認識トークン化剤として利用する、新しいメダゲノミクス事前訓練モデルである。
これは、遺伝子、機能、細菌、環境レベルにまたがる4つのレベルでのメダゲノミクスデータセットに優れた性能を示す。
- 参考スコア(独自算出の注目度): 46.189419603576084
- License:
- Abstract: Metagenomic data, comprising mixed multi-species genomes, are prevalent in diverse environments like oceans and soils, significantly impacting human health and ecological functions. However, current research relies on K-mer, which limits the capture of structurally and functionally relevant gene contexts. Moreover, these approaches struggle with encoding biologically meaningful genes and fail to address the One-to-Many and Many-to-One relationships inherent in metagenomic data. To overcome these challenges, we introduce FGBERT, a novel metagenomic pre-trained model that employs a protein-based gene representation as a context-aware and structure-relevant tokenizer. FGBERT incorporates Masked Gene Modeling (MGM) to enhance the understanding of inter-gene contextual relationships and Triplet Enhanced Metagenomic Contrastive Learning (TMC) to elucidate gene sequence-function relationships. Pre-trained on over 100 million metagenomic sequences, FGBERT demonstrates superior performance on metagenomic datasets at four levels, spanning gene, functional, bacterial, and environmental levels and ranging from 1k to 213k input sequences. Case studies of ATP Synthase and Gene Operons highlight FGBERT's capability for functional recognition and its biological relevance in metagenomic research.
- Abstract(参考訳): 混在する多種のゲノムからなるメタゲノミクスデータは、海洋や土壌などの多様な環境において広く利用されており、人間の健康や生態機能に大きな影響を与えている。
しかし、現在の研究はK-merに依存しており、構造的および機能的に関連する遺伝子コンテキストの捕捉を制限する。
さらに、これらのアプローチは生物学的に有意義な遺伝子のコード化に苦慮し、ミータノミクスデータに固有の1対多の関係に対処することができない。
これらの課題を克服するために、タンパク質をベースとした遺伝子表現をコンテキスト認識および構造関連トークン化器として利用した、新しいメタジノミック事前学習モデルであるFGBERTを導入する。
FGBERTは、遺伝子間関係の理解を強化するためにMasked Gene Modeling (MGM)を組み込み、Triplet Enhanced Metagenomic Contrastive Learning (TMC)は遺伝子配列と機能の関係を解明する。
1億以上のメダゲノミクス配列で事前訓練されたFGBERTは、遺伝子、機能、細菌、環境レベルにまたがる4つのレベルのメダゲノミクスデータセットに対して、1kから213kの入力シーケンスで優れたパフォーマンスを示す。
ATP合成酵素とジーン・オペロンのケーススタディは、FGBERTの機能認識能力とメダゲノミクス研究における生物学的意義を強調している。
関連論文リスト
- GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本研究では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデルを提案する。
このモデルは分子生物学の中心的なドグマに固執し、タンパク質のコード配列を正確に生成する。
また、特にプロモーター配列の即応的な生成を通じて、シーケンス最適化において大きな可能性を示している。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Predicting Genetic Mutation from Whole Slide Images via Biomedical-Linguistic Knowledge Enhanced Multi-label Classification [119.13058298388101]
遺伝子変異予測性能を向上させるため,生物知識を付加したPathGenomic Multi-label Transformerを開発した。
BPGTはまず、2つの慎重に設計されたモジュールによって遺伝子前駆体を構成する新しい遺伝子エンコーダを確立する。
BPGTはその後ラベルデコーダを設計し、最終的に2つの調整されたモジュールによる遺伝的突然変異予測を行う。
論文 参考訳(メタデータ) (2024-06-05T06:42:27Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Whole Genome Transformer for Gene Interaction Effects in Microbiome Habitat Specificity [3.972930262155919]
本研究では、遺伝子ベクター化のための既存の大規模モデルを利用して、微生物ゲノム配列全体から生息地特異性を予測する枠組みを提案する。
我々は、異なる生息地から得られた高品質のマイクロバイオームゲノムの大規模なデータセット上で、我々のアプローチを訓練し、検証する。
論文 参考訳(メタデータ) (2024-05-09T09:34:51Z) - Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。
DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。
textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文 参考訳(メタデータ) (2024-02-12T21:40:45Z) - GENER: A Parallel Layer Deep Learning Network To Detect Gene-Gene
Interactions From Gene Expression Data [0.7660368798066375]
本稿では,遺伝子発現データを用いた遺伝子関係の同定専用に設計された並列層深層学習ネットワークを提案する。
本モデルでは,BioGRIDとDREAM5の組み合わせによる平均AUROCスコア0.834を達成し,遺伝子間相互作用を予測する競合手法よりも優れていた。
論文 参考訳(メタデータ) (2023-10-05T15:45:53Z) - MuSe-GNN: Learning Unified Gene Representation From Multimodal
Biological Graph Data [22.938437500266847]
マルチモーダル類似性学習グラフニューラルネットワークという新しいモデルを提案する。
マルチモーダル機械学習とディープグラフニューラルネットワークを組み合わせて、単一セルシークエンシングと空間転写データから遺伝子発現を学習する。
本モデルでは, 遺伝子機能, 組織機能, 疾患, 種進化の解析のために, 統合された遺伝子表現を効率よく生成する。
論文 参考訳(メタデータ) (2023-09-29T13:33:53Z) - Unsupervised ensemble-based phenotyping helps enhance the
discoverability of genes related to heart morphology [57.25098075813054]
我々はUn Phenotype Ensemblesという名の遺伝子発見のための新しいフレームワークを提案する。
教師なしの方法で学習された表現型のセットをプールすることで、冗長だが非常に表現性の高い表現を構築する。
これらの表現型は、(GWAS)を介して分析され、高い自信と安定した関連のみを保持する。
論文 参考訳(メタデータ) (2023-01-07T18:36:44Z) - Feature extraction using Spectral Clustering for Gene Function
Prediction [0.4492444446637856]
本稿では,クラスタ分析と階層的マルチラベル分類を組み合わせたアノテーション問題に対する,シリコアプローチの新たなアプローチを提案する。
提案手法は、世界で最も支配的かつ生産的な作物であるゼア・メイズ(Zia mays)のケーススタディに適用される。
論文 参考訳(メタデータ) (2022-03-25T10:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。