論文の概要: FGBERT: Function-Driven Pre-trained Gene Language Model for Metagenomics
- arxiv url: http://arxiv.org/abs/2402.16901v1
- Date: Sat, 24 Feb 2024 13:13:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 19:09:28.778809
- Title: FGBERT: Function-Driven Pre-trained Gene Language Model for Metagenomics
- Title(参考訳): FGBERT:メタゲノミクスのための関数駆動型事前訓練された遺伝子言語モデル
- Authors: ChenRui Duan, Zelin Zang, Yongjie Xu, Hang He, Zihan Liu, Zijia Song,
Ju-Sheng Zheng, Stan Z. Li
- Abstract要約: タンパク質をベースとした遺伝子表現をコンテキスト認識および構造関連トークン化剤として導入する。
MGMとTEM-CLは1億のメダゲノミクス配列を事前訓練した新しいメダゲノミクス言語モデルであるNAMEを構成する。
- 参考スコア(独自算出の注目度): 35.47381119898764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Metagenomic data, comprising mixed multi-species genomes, are prevalent in
diverse environments like oceans and soils, significantly impacting human
health and ecological functions. However, current research relies on K-mer
representations, limiting the capture of structurally relevant gene contexts.
To address these limitations and further our understanding of complex
relationships between metagenomic sequences and their functions, we introduce a
protein-based gene representation as a context-aware and structure-relevant
tokenizer. Our approach includes Masked Gene Modeling (MGM) for gene
group-level pre-training, providing insights into inter-gene contextual
information, and Triple Enhanced Metagenomic Contrastive Learning (TEM-CL) for
gene-level pre-training to model gene sequence-function relationships. MGM and
TEM-CL constitute our novel metagenomic language model {\NAME}, pre-trained on
100 million metagenomic sequences. We demonstrate the superiority of our
proposed {\NAME} on eight datasets.
- Abstract(参考訳): 多種混合ゲノムを含むメタゲノミクスデータは、海や土壌などの多様な環境に広く分布し、人間の健康や生態機能に大きな影響を与えている。
しかしながら、現在の研究はK-mer表現に依存しており、構造的に関連する遺伝子コンテキストの捕捉を制限する。
これらの制限に対処し、メタゲノミクス配列とその機能間の複雑な関係をさらに理解するために、タンパク質ベースの遺伝子表現を文脈認識および構造関連トークン化剤として導入する。
提案手法は,遺伝子グループレベルの事前学習のためのMasked Gene Modeling (MGM) と,遺伝子配列-機能関係をモデル化するためのTriple Enhanced Metagenomic Contrastive Learning (TEM-CL) を含む。
MGMとTEM-CLは1億のメダゲノミクス配列で事前訓練された新しいメダゲノミクス言語モデル {\NAME} を構成する。
8つのデータセットで提案する {\name} の優位性を示す。
関連論文リスト
- Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - Predicting Genetic Mutation from Whole Slide Images via Biomedical-Linguistic Knowledge Enhanced Multi-label Classification [119.13058298388101]
遺伝子変異予測性能を向上させるため,生物知識を付加したPathGenomic Multi-label Transformerを開発した。
BPGTはまず、2つの慎重に設計されたモジュールによって遺伝子前駆体を構成する新しい遺伝子エンコーダを確立する。
BPGTはその後ラベルデコーダを設計し、最終的に2つの調整されたモジュールによる遺伝的突然変異予測を行う。
論文 参考訳(メタデータ) (2024-06-05T06:42:27Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Whole Genome Transformer for Gene Interaction Effects in Microbiome Habitat Specificity [3.972930262155919]
本研究では、遺伝子ベクター化のための既存の大規模モデルを利用して、微生物ゲノム配列全体から生息地特異性を予測する枠組みを提案する。
我々は、異なる生息地から得られた高品質のマイクロバイオームゲノムの大規模なデータセット上で、我々のアプローチを訓練し、検証する。
論文 参考訳(メタデータ) (2024-05-09T09:34:51Z) - Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。
DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。
textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文 参考訳(メタデータ) (2024-02-12T21:40:45Z) - GENER: A Parallel Layer Deep Learning Network To Detect Gene-Gene
Interactions From Gene Expression Data [0.7660368798066375]
本稿では,遺伝子発現データを用いた遺伝子関係の同定専用に設計された並列層深層学習ネットワークを提案する。
本モデルでは,BioGRIDとDREAM5の組み合わせによる平均AUROCスコア0.834を達成し,遺伝子間相互作用を予測する競合手法よりも優れていた。
論文 参考訳(メタデータ) (2023-10-05T15:45:53Z) - MuSe-GNN: Learning Unified Gene Representation From Multimodal
Biological Graph Data [22.938437500266847]
マルチモーダル類似性学習グラフニューラルネットワークという新しいモデルを提案する。
マルチモーダル機械学習とディープグラフニューラルネットワークを組み合わせて、単一セルシークエンシングと空間転写データから遺伝子発現を学習する。
本モデルでは, 遺伝子機能, 組織機能, 疾患, 種進化の解析のために, 統合された遺伝子表現を効率よく生成する。
論文 参考訳(メタデータ) (2023-09-29T13:33:53Z) - Genetic InfoMax: Exploring Mutual Information Maximization in
High-Dimensional Imaging Genetics Studies [50.11449968854487]
遺伝子ワイド・アソシエーション(GWAS)は、遺伝的変異と特定の形質の関係を同定するために用いられる。
画像遺伝学の表現学習は、GWASによって引き起こされる固有の課題により、ほとんど探索されていない。
本稿では,GWAS の具体的な課題に対処するために,トランスモーダル学習フレームワーク Genetic InfoMax (GIM) を提案する。
論文 参考訳(メタデータ) (2023-09-26T03:59:21Z) - Feature extraction using Spectral Clustering for Gene Function
Prediction [0.4492444446637856]
本稿では,クラスタ分析と階層的マルチラベル分類を組み合わせたアノテーション問題に対する,シリコアプローチの新たなアプローチを提案する。
提案手法は、世界で最も支配的かつ生産的な作物であるゼア・メイズ(Zia mays)のケーススタディに適用される。
論文 参考訳(メタデータ) (2022-03-25T10:17:36Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。