論文の概要: A Phylogenetic Approach to Genomic Language Modeling
- arxiv url: http://arxiv.org/abs/2503.03773v1
- Date: Tue, 04 Mar 2025 06:53:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:58:17.738884
- Title: A Phylogenetic Approach to Genomic Language Modeling
- Title(参考訳): ゲノム言語モデリングのための系統学的アプローチ
- Authors: Carlos Albors, Jianan Canal Li, Gonzalo Benegas, Chengzhong Ye, Yun S. Song,
- Abstract要約: 系統樹上のヌクレオチド進化を明示的にモデル化するgLMを訓練するための新しいフレームワークを提案する。
本手法では,トレーニング中の損失関数にアライメントを組み込むことで予測を行う。
我々はこの枠組みを適用し、単一シーケンスのみから機能的に破壊的な変異を予測するモデルであるPhyloGPNを訓練した。
- 参考スコア(独自算出の注目度): 0.2912705470788796
- License:
- Abstract: Genomic language models (gLMs) have shown mostly modest success in identifying evolutionarily constrained elements in mammalian genomes. To address this issue, we introduce a novel framework for training gLMs that explicitly models nucleotide evolution on phylogenetic trees using multispecies whole-genome alignments. Our approach integrates an alignment into the loss function during training but does not require it for making predictions, thereby enhancing the model's applicability. We applied this framework to train PhyloGPN, a model that excels at predicting functionally disruptive variants from a single sequence alone and demonstrates strong transfer learning capabilities.
- Abstract(参考訳): ゲノム言語モデル(gLM)は、哺乳類ゲノムの進化的に制約された要素を同定することに成功した。
そこで本研究では, 系統樹上のヌクレオチド進化を多種全ゲノムアライメントを用いて明示的にモデル化する, gLM のトレーニングフレームワークを提案する。
提案手法は,トレーニング中の損失関数にアライメントを組み込むが,予測を行う必要はなく,モデルの適用性が向上する。
このフレームワークを用いてPhyloGPNをトレーニングした。これは単一のシーケンスのみから機能的に破壊的な変異を予測し、強力な転送学習能力を示すモデルである。
関連論文リスト
- PhyloGen: Language Model-Enhanced Phylogenetic Inference via Graph Structure Generation [50.80441546742053]
系統樹は種間の進化的関係を解明する。
伝統的なマルコフ連鎖モンテカルロ法は、緩やかな収束と計算上の負担に直面している。
我々は、事前学習されたゲノム言語モデルを活用する新しい方法であるPhyloGenを提案する。
論文 参考訳(メタデータ) (2024-12-25T08:33:05Z) - scReader: Prompting Large Language Models to Interpret scRNA-seq Data [12.767105992391555]
本稿では,大規模言語モデルの一般的な知識機能と,単一セルオミクスデータ解釈のためのドメイン固有表現モデルを統合する,革新的なハイブリッドアプローチを提案する。
単細胞遺伝子レベルでの遺伝子発現データをプロンプトで入力することにより、様々な種および細胞タイプにわたる遺伝子発現の差分レベルに基づいて、細胞表現を効果的にモデル化する。
論文 参考訳(メタデータ) (2024-12-24T04:28:42Z) - Long-range gene expression prediction with token alignment of large language model [37.10820914895689]
本稿では,遺伝子配列の特徴を自然言語トークンと整合させる遺伝子配列Token Alignment(GTA)を提案する。
GTAは規制文法を学習し、遺伝子特異的な人間のアノテーションをプロンプトとして組み込むことができる。
GTAは、事前訓練された言語モデルを利用して、遺伝子発現予測に対する強力で斬新なクロスモーダルなアプローチを示す。
論文 参考訳(メタデータ) (2024-10-02T02:42:29Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。
DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。
textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文 参考訳(メタデータ) (2024-02-12T21:40:45Z) - Improving Biomedical Entity Linking with Retrieval-enhanced Learning [53.24726622142558]
$k$NN-BioELは、トレーニングコーパス全体から同様のインスタンスを予測のヒントとして参照する機能を備えたBioELモデルを提供する。
k$NN-BioELは、いくつかのデータセットで最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-12-15T14:04:23Z) - Unsupervised language models for disease variant prediction [3.6942566104432886]
広い配列のデータセットで訓練された1つのタンパク質LMは、あらゆる遺伝子変異ゼロショットに対して病原性を評価することができる。
臨床的にラベル付けされた疾患関連遺伝子の変異について評価すると,その評価性能は最先端技術に匹敵することがわかった。
論文 参考訳(メタデータ) (2022-12-07T22:28:13Z) - EvoVGM: A Deep Variational Generative Model for Evolutionary Parameter
Estimation [0.0]
本研究では,局所生物学的進化パラメータの真後部を共同で近似した深部変分ベイズ生成モデルを提案する。
本研究では,いくつかの進化シナリオと実際のウイルス配列アライメントをシミュレートした合成配列アライメントにおける手法の一貫性と有効性を示す。
論文 参考訳(メタデータ) (2022-05-25T20:08:10Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。