論文の概要: Extending Sequence Length is Not All You Need: Effective Integration of Multimodal Signals for Gene Expression Prediction
- arxiv url: http://arxiv.org/abs/2602.21550v1
- Date: Wed, 25 Feb 2026 04:16:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.698031
- Title: Extending Sequence Length is Not All You Need: Effective Integration of Multimodal Signals for Gene Expression Prediction
- Title(参考訳): 配列長の延長は必要ではない:遺伝子発現予測のためのマルチモーダル信号の効果的な統合
- Authors: Zhao Yang, Yi Duan, Jiwei Zhu, Ying Ba, Chuan Cao, Bing Su,
- Abstract要約: 現在のモデルでは、ロングシーケンスモデリングは性能を低下させる可能性がある。
その代わり、ターゲット遺伝子に近いマルチモーダルなエピゲノミクス信号がより重要であることが判明した。
異なる背景近位状態を表すために高次元のエピジェノミック特徴の複数組み合わせを学習するフレームワークであるPrismを提案する。
- 参考スコア(独自算出の注目度): 15.79385231366071
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gene expression prediction, which predicts mRNA expression levels from DNA sequences, presents significant challenges. Previous works often focus on extending input sequence length to locate distal enhancers, which may influence target genes from hundreds of kilobases away. Our work first reveals that for current models, long sequence modeling can decrease performance. Even carefully designed algorithms only mitigate the performance degradation caused by long sequences. Instead, we find that proximal multimodal epigenomic signals near target genes prove more essential. Hence we focus on how to better integrate these signals, which has been overlooked. We find that different signal types serve distinct biological roles, with some directly marking active regulatory elements while others reflect background chromatin patterns that may introduce confounding effects. Simple concatenation may lead models to develop spurious associations with these background patterns. To address this challenge, we propose Prism, a framework that learns multiple combinations of high-dimensional epigenomic features to represent distinct background chromatin states and uses backdoor adjustment to mitigate confounding effects. Our experimental results demonstrate that proper modeling of multimodal epigenomic signals achieves state-of-the-art performance using only short sequences for gene expression prediction.
- Abstract(参考訳): DNA配列からmRNAの発現レベルを予測する遺伝子発現予測は、大きな課題を呈している。
以前の研究はしばしば、数百キロ塩基の標的遺伝子に影響を与える遠位エンハンサーを見つけるために入力配列の長さを拡張することに重点を置いている。
我々の研究は、まず、現在のモデルでは、長いシーケンスモデリングが性能を低下させる可能性があることを明らかにした。
さらに慎重に設計されたアルゴリズムは、長いシーケンスによるパフォーマンス劣化を緩和するだけである。
その代わり、ターゲット遺伝子に近い近位多モーダルなエピジェノミクス信号がより重要であることが判明した。
したがって、我々はこれらの信号をよりうまく統合する方法に注力する。
異なるシグナルタイプが異なる生物学的役割を担い、あるものは直接的に活性な制御要素をマークし、あるものは背景のクロマチンパターンを反映していることが判明した。
単純な結合は、モデルがこれらの背景パターンと急激な関連を発達させる可能性がある。
この課題に対処するためにPrismを提案する。これは、背景クロマチン状態を表すために高次元のエピゲノミック特徴の複数の組み合わせを学習するフレームワークであり、バックドア調整を用いて、コンバウンディング効果を緩和する。
実験結果から,多モードなエピゲノミクス信号の適切なモデリングは,短い配列のみを用いて表現予測を行い,最先端のパフォーマンスを達成できることが示唆された。
関連論文リスト
- Evaluating DNA function understanding in genomic language models using evolutionarily implausible sequences [0.25489046505746704]
我々はNullsettesというベンチマークを導入し、Siliico Los-of-function(LOF)変異においてモデルがどのように予測できるかを評価する。
殆どの人は強いLOF変異を一貫して検出できない。
全てのモデルでは、元の(不変)配列に割り当てられる確率が減少するにつれて、予測精度が急落する。
論文 参考訳(メタデータ) (2025-06-12T01:28:04Z) - GRAPE: Heterogeneous Graph Representation Learning for Genetic Perturbation with Coding and Non-Coding Biotype [51.58774936662233]
遺伝子制御ネットワーク(GRN)の構築は、遺伝的摂動の影響を理解し予測するために不可欠である。
本研究では,事前学習した大規模言語モデルとDNAシークエンスモデルを用いて,遺伝子記述やDNAシークエンスデータから特徴を抽出する。
我々は、遺伝子摂動において初めて遺伝子バイオタイプ情報を導入し、細胞プロセスの制御において異なるバイオタイプを持つ遺伝子の異なる役割をシミュレートした。
論文 参考訳(メタデータ) (2025-05-06T03:35:24Z) - Predicting gene essentiality and drug response from perturbation screens in preclinical cancer models with LEAP: Layered Ensemble of Autoencoders and Predictors [4.882734501598445]
既存の予測モデルは限定的、一般化可能性、解釈可能性に悩まされている。
自動エンコーダと予測器の階層化フレームワーク(LEAP)について紹介する。
LEAPは、モデリング戦略を越えて、未スクリーンのセルラインでの予測性能を一貫して改善する。
論文 参考訳(メタデータ) (2025-02-21T18:12:36Z) - Learning to Discover Regulatory Elements for Gene Expression Prediction [59.470991831978516]
Seq2Expは、ターゲット遺伝子発現を駆動する制御要素を発見し、抽出するために設計されたSequence to Expressionネットワークである。
本手法は, エピジェノミックシグナル, DNA 配列とその関連因子の因果関係を捉える。
論文 参考訳(メタデータ) (2025-02-19T03:25:49Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Diversifying Design of Nucleic Acid Aptamers Using Unsupervised Machine
Learning [54.247560894146105]
短い一本鎖RNAとDNA配列(アプタマー)の逆設計は、一連の望ましい基準を満たす配列を見つけるタスクである。
我々は、Pottsモデルとして知られる教師なし機械学習モデルを用いて、制御可能なシーケンスの多様性を持つ新しい有用なシーケンスを発見することを提案する。
論文 参考訳(メタデータ) (2022-08-10T13:30:58Z) - SimpleChrome: Encoding of Combinatorial Effects for Predicting Gene
Expression [8.326669256957352]
遺伝子のヒストン修飾表現を学習するディープラーニングモデルであるSimpleChromeを紹介します。
このモデルから得られた特徴により、遺伝子間相互作用の潜在効果と標的遺伝子の発現に対する直接遺伝子調節をよりよく理解することができます。
論文 参考訳(メタデータ) (2020-12-15T23:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。