論文の概要: A Phylogenetic Approach to Genomic Language Modeling
- arxiv url: http://arxiv.org/abs/2503.03773v1
- Date: Tue, 04 Mar 2025 06:53:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 17:59:00.531568
- Title: A Phylogenetic Approach to Genomic Language Modeling
- Title(参考訳): ゲノム言語モデリングのための系統学的アプローチ
- Authors: Carlos Albors, Jianan Canal Li, Gonzalo Benegas, Chengzhong Ye, Yun S. Song,
- Abstract要約: 系統樹上のヌクレオチド進化を明示的にモデル化するgLMを訓練するための新しいフレームワークを提案する。
本手法では,トレーニング中の損失関数にアライメントを組み込むことで予測を行う。
我々はこの枠組みを適用し、単一シーケンスのみから機能的に破壊的な変異を予測するモデルであるPhyloGPNを訓練した。
- 参考スコア(独自算出の注目度): 0.2912705470788796
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Genomic language models (gLMs) have shown mostly modest success in identifying evolutionarily constrained elements in mammalian genomes. To address this issue, we introduce a novel framework for training gLMs that explicitly models nucleotide evolution on phylogenetic trees using multispecies whole-genome alignments. Our approach integrates an alignment into the loss function during training but does not require it for making predictions, thereby enhancing the model's applicability. We applied this framework to train PhyloGPN, a model that excels at predicting functionally disruptive variants from a single sequence alone and demonstrates strong transfer learning capabilities.
- Abstract(参考訳): ゲノム言語モデル(gLM)は、哺乳類ゲノムの進化的に制約された要素を同定することに成功した。
そこで本研究では, 系統樹上のヌクレオチド進化を多種全ゲノムアライメントを用いて明示的にモデル化する, gLM のトレーニングフレームワークを提案する。
提案手法は,トレーニング中の損失関数にアライメントを組み込むが,予測を行う必要はなく,モデルの適用性が向上する。
このフレームワークを用いてPhyloGPNをトレーニングした。これは単一のシーケンスのみから機能的に破壊的な変異を予測し、強力な転送学習能力を示すモデルである。
関連論文リスト
- Teaching pathology foundation models to accurately predict gene expression with parameter efficient knowledge transfer [1.5416321520529301]
PEKA(Efficient Knowledge Adaptation)は、クロスモーダルな知識伝達のための知識蒸留と構造アライメント損失を統合する新しいフレームワークである。
複数の空間転写学データセットを用いた遺伝子発現予測のためのPEKAの評価を行った。
論文 参考訳(メタデータ) (2025-04-09T17:24:41Z) - UniGenX: Unified Generation of Sequence and Structure with Autoregressive Diffusion [61.690978792873196]
既存のアプローチは自己回帰シーケンスモデルか拡散モデルのいずれかに依存している。
自己回帰的次トーケン予測と条件拡散モデルを組み合わせた統合フレームワークUniGenXを提案する。
材料および小分子生成タスクにおけるUniGenXの有効性を検証する。
論文 参考訳(メタデータ) (2025-03-09T16:43:07Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - PhyloGen: Language Model-Enhanced Phylogenetic Inference via Graph Structure Generation [50.80441546742053]
系統樹は種間の進化的関係を解明する。
伝統的なマルコフ連鎖モンテカルロ法は、緩やかな収束と計算上の負担に直面している。
我々は、事前学習されたゲノム言語モデルを活用する新しい方法であるPhyloGenを提案する。
論文 参考訳(メタデータ) (2024-12-25T08:33:05Z) - Long-range gene expression prediction with token alignment of large language model [37.10820914895689]
本稿では,遺伝子配列の特徴を自然言語トークンと整合させる遺伝子配列Token Alignment(GTA)を提案する。
GTAは規制文法を学習し、遺伝子特異的な人間のアノテーションをプロンプトとして組み込むことができる。
GTAは、事前訓練された言語モデルを利用して、遺伝子発現予測に対する強力で斬新なクロスモーダルなアプローチを示す。
論文 参考訳(メタデータ) (2024-10-02T02:42:29Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。
DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。
textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文 参考訳(メタデータ) (2024-02-12T21:40:45Z) - Unsupervised language models for disease variant prediction [3.6942566104432886]
広い配列のデータセットで訓練された1つのタンパク質LMは、あらゆる遺伝子変異ゼロショットに対して病原性を評価することができる。
臨床的にラベル付けされた疾患関連遺伝子の変異について評価すると,その評価性能は最先端技術に匹敵することがわかった。
論文 参考訳(メタデータ) (2022-12-07T22:28:13Z) - EvoVGM: A Deep Variational Generative Model for Evolutionary Parameter
Estimation [0.0]
本研究では,局所生物学的進化パラメータの真後部を共同で近似した深部変分ベイズ生成モデルを提案する。
本研究では,いくつかの進化シナリオと実際のウイルス配列アライメントをシミュレートした合成配列アライメントにおける手法の一貫性と有効性を示す。
論文 参考訳(メタデータ) (2022-05-25T20:08:10Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。