論文の概要: FGBERT: Function-Driven Pre-trained Gene Language Model for Metagenomics
- arxiv url: http://arxiv.org/abs/2402.16901v1
- Date: Sat, 24 Feb 2024 13:13:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 19:09:28.778809
- Title: FGBERT: Function-Driven Pre-trained Gene Language Model for Metagenomics
- Title(参考訳): FGBERT:メタゲノミクスのための関数駆動型事前訓練された遺伝子言語モデル
- Authors: ChenRui Duan, Zelin Zang, Yongjie Xu, Hang He, Zihan Liu, Zijia Song,
Ju-Sheng Zheng, Stan Z. Li
- Abstract要約: タンパク質をベースとした遺伝子表現をコンテキスト認識および構造関連トークン化剤として導入する。
MGMとTEM-CLは1億のメダゲノミクス配列を事前訓練した新しいメダゲノミクス言語モデルであるNAMEを構成する。
- 参考スコア(独自算出の注目度): 35.47381119898764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Metagenomic data, comprising mixed multi-species genomes, are prevalent in
diverse environments like oceans and soils, significantly impacting human
health and ecological functions. However, current research relies on K-mer
representations, limiting the capture of structurally relevant gene contexts.
To address these limitations and further our understanding of complex
relationships between metagenomic sequences and their functions, we introduce a
protein-based gene representation as a context-aware and structure-relevant
tokenizer. Our approach includes Masked Gene Modeling (MGM) for gene
group-level pre-training, providing insights into inter-gene contextual
information, and Triple Enhanced Metagenomic Contrastive Learning (TEM-CL) for
gene-level pre-training to model gene sequence-function relationships. MGM and
TEM-CL constitute our novel metagenomic language model {\NAME}, pre-trained on
100 million metagenomic sequences. We demonstrate the superiority of our
proposed {\NAME} on eight datasets.
- Abstract(参考訳): 多種混合ゲノムを含むメタゲノミクスデータは、海や土壌などの多様な環境に広く分布し、人間の健康や生態機能に大きな影響を与えている。
しかしながら、現在の研究はK-mer表現に依存しており、構造的に関連する遺伝子コンテキストの捕捉を制限する。
これらの制限に対処し、メタゲノミクス配列とその機能間の複雑な関係をさらに理解するために、タンパク質ベースの遺伝子表現を文脈認識および構造関連トークン化剤として導入する。
提案手法は,遺伝子グループレベルの事前学習のためのMasked Gene Modeling (MGM) と,遺伝子配列-機能関係をモデル化するためのTriple Enhanced Metagenomic Contrastive Learning (TEM-CL) を含む。
MGMとTEM-CLは1億のメダゲノミクス配列で事前訓練された新しいメダゲノミクス言語モデル {\NAME} を構成する。
8つのデータセットで提案する {\name} の優位性を示す。
関連論文リスト
- Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。
DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。
textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文 参考訳(メタデータ) (2024-02-12T21:40:45Z) - GENER: A Parallel Layer Deep Learning Network To Detect Gene-Gene
Interactions From Gene Expression Data [0.7660368798066375]
本稿では,遺伝子発現データを用いた遺伝子関係の同定専用に設計された並列層深層学習ネットワークを提案する。
本モデルでは,BioGRIDとDREAM5の組み合わせによる平均AUROCスコア0.834を達成し,遺伝子間相互作用を予測する競合手法よりも優れていた。
論文 参考訳(メタデータ) (2023-10-05T15:45:53Z) - MuSe-GNN: Learning Unified Gene Representation From Multimodal
Biological Graph Data [22.938437500266847]
マルチモーダル類似性学習グラフニューラルネットワークという新しいモデルを提案する。
マルチモーダル機械学習とディープグラフニューラルネットワークを組み合わせて、単一セルシークエンシングと空間転写データから遺伝子発現を学習する。
本モデルでは, 遺伝子機能, 組織機能, 疾患, 種進化の解析のために, 統合された遺伝子表現を効率よく生成する。
論文 参考訳(メタデータ) (2023-09-29T13:33:53Z) - Genetic InfoMax: Exploring Mutual Information Maximization in
High-Dimensional Imaging Genetics Studies [50.11449968854487]
遺伝子ワイド・アソシエーション(GWAS)は、遺伝的変異と特定の形質の関係を同定するために用いられる。
画像遺伝学の表現学習は、GWASによって引き起こされる固有の課題により、ほとんど探索されていない。
本稿では,GWAS の具体的な課題に対処するために,トランスモーダル学習フレームワーク Genetic InfoMax (GIM) を提案する。
論文 参考訳(メタデータ) (2023-09-26T03:59:21Z) - Genomic Interpreter: A Hierarchical Genomic Deep Neural Network with 1D
Shifted Window Transformer [4.059849656394191]
Genomic Interpreterはゲノムアッセイ予測のための新しいアーキテクチャである。
モデルはゲノムサイトの階層的依存関係を識別できる。
17K対の38,171のDNAセグメントを含むデータセットで評価される。
論文 参考訳(メタデータ) (2023-06-08T12:10:13Z) - Cancer-inspired Genomics Mapper Model for the Generation of Synthetic
DNA Sequences with Desired Genomics Signatures [0.0]
がんに触発されたゲノムマッパーモデル(CGMM)は、遺伝的アルゴリズム(GA)とディープラーニング(DL)の手法を組み合わせたものである。
我々はCGMMが、祖先や癌などの選択された表現型の合成ゲノムを生成できることを実証した。
論文 参考訳(メタデータ) (2023-05-01T07:16:40Z) - Unsupervised ensemble-based phenotyping helps enhance the
discoverability of genes related to heart morphology [57.25098075813054]
我々はUn Phenotype Ensemblesという名の遺伝子発見のための新しいフレームワークを提案する。
教師なしの方法で学習された表現型のセットをプールすることで、冗長だが非常に表現性の高い表現を構築する。
これらの表現型は、(GWAS)を介して分析され、高い自信と安定した関連のみを保持する。
論文 参考訳(メタデータ) (2023-01-07T18:36:44Z) - Granger causal inference on DAGs identifies genomic loci regulating
transcription [77.58911272503771]
GrID-Netは、DBG構造化システムにおけるGranger因果推論のためのラタグメッセージパッシングを備えたグラフニューラルネットワークに基づくフレームワークである。
我々の応用は、特定の遺伝子の調節を仲介するゲノム座を同定する単一セルマルチモーダルデータの解析である。
論文 参考訳(メタデータ) (2022-10-18T21:15:10Z) - Feature extraction using Spectral Clustering for Gene Function
Prediction [0.4492444446637856]
本稿では,クラスタ分析と階層的マルチラベル分類を組み合わせたアノテーション問題に対する,シリコアプローチの新たなアプローチを提案する。
提案手法は、世界で最も支配的かつ生産的な作物であるゼア・メイズ(Zia mays)のケーススタディに適用される。
論文 参考訳(メタデータ) (2022-03-25T10:17:36Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。