論文の概要: Predicting function of evolutionarily implausible DNA sequences
- arxiv url: http://arxiv.org/abs/2506.10271v1
- Date: Thu, 12 Jun 2025 01:28:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.513991
- Title: Predicting function of evolutionarily implausible DNA sequences
- Title(参考訳): 進化的に不確実なDNA配列の予測機能
- Authors: Shiyu Jiang, Xuyin Liu, Zitong Jerry Wang,
- Abstract要約: 我々はNullsettesと呼ばれる一連の予測タスクを導入し、モデルが機能不全の突然変異を予測する能力を評価する。
変異効果予測性能は非変異体の予測可能性と強く相関していることがわかった。
強いモデル性能の予測可能な確率値の範囲は、シーケンス長に大きく依存する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Genomic language models (gLMs) show potential for generating novel, functional DNA sequences for synthetic biology, but doing so requires them to learn not just evolutionary plausibility, but also sequence-to-function relationships. We introduce a set of prediction tasks called Nullsettes, which assesses a model's ability to predict loss-of-function mutations created by translocating key control elements in synthetic expression cassettes. Across 12 state-of-the-art models, we find that mutation effect prediction performance strongly correlates with the predicted likelihood of the nonmutant. Furthermore, the range of likelihood values predictive of strong model performance is highly dependent on sequence length. Our work highlights the importance of considering both sequence likelihood and sequence length when using gLMs for mutation effect prediction.
- Abstract(参考訳): ゲノム言語モデル(gLM)は、合成生物学のための新規で機能的なDNA配列を生成する可能性があるが、それを行うには、進化的妥当性だけでなく、配列と機能の関係も学ぶ必要がある。
我々はNullsettesと呼ばれる一連の予測タスクを導入し、合成表現カセットにキー制御要素を移動させることによって生じる機能的突然変異をモデルが予測する能力を評価する。
12種類の最先端モデルにおいて,変異効果予測性能は非変異体の予測可能性と強く相関していることがわかった。
さらに、強いモデル性能の予測可能な確率値の範囲は、シーケンス長に大きく依存する。
本研究は、突然変異効果予測にgLMを用いる場合、シーケンスの確率とシーケンスの長さの両方を考慮することの重要性を強調した。
関連論文リスト
- GRAPE: Heterogeneous Graph Representation Learning for Genetic Perturbation with Coding and Non-Coding Biotype [51.58774936662233]
遺伝子制御ネットワーク(GRN)の構築は、遺伝的摂動の影響を理解し予測するために不可欠である。
本研究では,事前学習した大規模言語モデルとDNAシークエンスモデルを用いて,遺伝子記述やDNAシークエンスデータから特徴を抽出する。
我々は、遺伝子摂動において初めて遺伝子バイオタイプ情報を導入し、細胞プロセスの制御において異なるバイオタイプを持つ遺伝子の異なる役割をシミュレートした。
論文 参考訳(メタデータ) (2025-05-06T03:35:24Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Predicting loss-of-function impact of genetic mutations: a machine
learning approach [0.0]
本稿では,遺伝子変異の属性に基づいて機械学習モデルを学習し,LoFtoolスコアを予測することを目的とする。
これらの属性には、染色体上の突然変異の位置、アミノ酸の変化、変異によって引き起こされるコドンの変化が含まれていた。
モデルは, 平均2乗誤差, 平均2乗誤差, 平均2乗誤差, 平均絶対誤差, 説明分散の5倍のクロスバリデード平均を用いて評価した。
論文 参考訳(メタデータ) (2024-01-26T19:27:38Z) - Generative Capacity of Probabilistic Protein Sequence Models [0.0]
ポッツモデルと変分オートエンコーダ(VAEs)は、最近、生成タンパク質配列モデル(GPSMs)として人気を博している。
GPSMsが転移によって引き起こされる自然配列で観察される複雑な多重残基変異パターンを忠実に再現できるかどうかは現在不明である。
我々は近年の3つのGPSMの「生成能力」を評価するための一連の統計データを開発した。
論文 参考訳(メタデータ) (2020-12-03T21:59:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。