論文の概要: Evaluating DNA function understanding in genomic language models using evolutionarily implausible sequences
- arxiv url: http://arxiv.org/abs/2506.10271v3
- Date: Tue, 26 Aug 2025 04:00:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 15:23:52.364106
- Title: Evaluating DNA function understanding in genomic language models using evolutionarily implausible sequences
- Title(参考訳): 進化的に不可能な配列を用いたゲノム言語モデルにおけるDNA機能理解の評価
- Authors: Shiyu Jiang, Xuyin Liu, Zitong Jerry Wang,
- Abstract要約: 我々はNullsettesというベンチマークを導入し、Siliico Los-of-function(LOF)変異においてモデルがどのように予測できるかを評価する。
殆どの人は強いLOF変異を一貫して検出できない。
全てのモデルでは、元の(不変)配列に割り当てられる確率が減少するにつれて、予測精度が急落する。
- 参考スコア(独自算出の注目度): 0.25489046505746704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Genomic language models (gLMs) hold promise for generating novel, functional DNA sequences for synthetic biology. However, realizing this potential requires models to go beyond evolutionary plausibility and understand how DNA sequence encodes gene expression and regulation. We introduce a benchmark called Nullsettes, which assesses how well models can predict in silico loss-of-function (LOF) mutations, in synthetic expression cassettes with little evolutionary precedent. Testing 12 state-of-the-art gLMs, we find that most fail to consistently detect these strong LOF mutations. All models show a sharp drop in predictive accuracy as the likelihood assigned to the original (nonmutant) sequence decreases, suggesting that gLMs rely heavily on pattern-matching to their evolutionary prior rather than on any mechanistic understanding of gene expression. Our findings highlight fundamental limitations in how gLMs generalize to engineered, non-natural sequences, and underscore the need for benchmarks and modeling strategies that prioritize functional understanding.
- Abstract(参考訳): ゲノム言語モデル(gLM)は、合成生物学のための新規で機能的なDNA配列を生成することを約束している。
しかし、この可能性を実現するためには、進化の可視性を超えてDNA配列がどのように遺伝子発現と調節をコードするかを理解するモデルが必要である。
我々はNullsettesというベンチマークを導入し、進化的な前例の少ない合成表現カセットにおいて、モデルがシリコ欠失(LOF)突然変異をいかに予測できるかを評価する。
12個の最先端のgLMを検査すると、ほとんどの場合、強いLOF変異を一貫して検出できないことがわかりました。
全てのモデルでは、元の(不変)配列に割り当てられる確率が減少するにつれて予測精度が急落しており、gLMは遺伝子発現の機械的理解よりも、進化前のパターンマッチングに大きく依存していることが示唆されている。
本研究は,gLMの工学的,非自然的シーケンスへの一般化に関する基本的制約を強調し,機能的理解を優先するベンチマークやモデリング戦略の必要性を強調した。
関連論文リスト
- GRAPE: Heterogeneous Graph Representation Learning for Genetic Perturbation with Coding and Non-Coding Biotype [51.58774936662233]
遺伝子制御ネットワーク(GRN)の構築は、遺伝的摂動の影響を理解し予測するために不可欠である。
本研究では,事前学習した大規模言語モデルとDNAシークエンスモデルを用いて,遺伝子記述やDNAシークエンスデータから特徴を抽出する。
我々は、遺伝子摂動において初めて遺伝子バイオタイプ情報を導入し、細胞プロセスの制御において異なるバイオタイプを持つ遺伝子の異なる役割をシミュレートした。
論文 参考訳(メタデータ) (2025-05-06T03:35:24Z) - UniGenX: Unified Generation of Sequence and Structure with Autoregressive Diffusion [61.690978792873196]
既存のアプローチは自己回帰シーケンスモデルか拡散モデルのいずれかに依存している。
自己回帰的次トーケン予測と条件拡散モデルを組み合わせた統合フレームワークUniGenXを提案する。
材料および小分子生成タスクにおけるUniGenXの有効性を検証する。
論文 参考訳(メタデータ) (2025-03-09T16:43:07Z) - Predicting gene essentiality and drug response from perturbation screens in preclinical cancer models with LEAP: Layered Ensemble of Autoencoders and Predictors [0.0]
本稿では,ロバスト性と一般化を向上する新しいアンサンブルフレームワークであるLEAP(Layered Ensemble of Autoencoders and Predictors)を紹介する。
LEAPは、未確認の細胞株、組織、および疾患モデルにおいて、遺伝子本質または薬物応答を予測する最先端のアプローチを一貫して上回っている。
論文 参考訳(メタデータ) (2025-02-21T18:12:36Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Generative Intervention Models for Causal Perturbation Modeling [80.72074987374141]
多くの応用において、システムのメカニズムが外部の摂動によって変更されるかは未定である。
本稿では、これらの摂動特徴を原子間干渉による分布にマッピングする方法を学習する生成的介入モデル(GIM)を提案する。
論文 参考訳(メタデータ) (2024-11-21T10:37:57Z) - Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - A Poisson-Gamma Dynamic Factor Model with Time-Varying Transition Dynamics [51.147876395589925]
非定常PGDSは、基礎となる遷移行列が時間とともに進化できるように提案されている。
後続シミュレーションを行うために, 完全共役かつ効率的なギブスサンプリング装置を開発した。
実験により,提案した非定常PGDSは,関連するモデルと比較して予測性能が向上することを示した。
論文 参考訳(メタデータ) (2024-02-26T04:39:01Z) - Predicting loss-of-function impact of genetic mutations: a machine
learning approach [0.0]
本稿では,遺伝子変異の属性に基づいて機械学習モデルを学習し,LoFtoolスコアを予測することを目的とする。
これらの属性には、染色体上の突然変異の位置、アミノ酸の変化、変異によって引き起こされるコドンの変化が含まれていた。
モデルは, 平均2乗誤差, 平均2乗誤差, 平均2乗誤差, 平均絶対誤差, 説明分散の5倍のクロスバリデード平均を用いて評価した。
論文 参考訳(メタデータ) (2024-01-26T19:27:38Z) - Generative Capacity of Probabilistic Protein Sequence Models [0.0]
ポッツモデルと変分オートエンコーダ(VAEs)は、最近、生成タンパク質配列モデル(GPSMs)として人気を博している。
GPSMsが転移によって引き起こされる自然配列で観察される複雑な多重残基変異パターンを忠実に再現できるかどうかは現在不明である。
我々は近年の3つのGPSMの「生成能力」を評価するための一連の統計データを開発した。
論文 参考訳(メタデータ) (2020-12-03T21:59:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。