論文の概要: Extending Sequence Length is Not All You Need: Effective Integration of Multimodal Signals for Gene Expression Prediction
- arxiv url: http://arxiv.org/abs/2602.21550v1
- Date: Wed, 25 Feb 2026 04:16:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.698031
- Title: Extending Sequence Length is Not All You Need: Effective Integration of Multimodal Signals for Gene Expression Prediction
- Title(参考訳): 配列長の延長は必要ではない:遺伝子発現予測のためのマルチモーダル信号の効果的な統合
- Authors: Zhao Yang, Yi Duan, Jiwei Zhu, Ying Ba, Chuan Cao, Bing Su,
- Abstract要約: 現在のモデルでは、ロングシーケンスモデリングは性能を低下させる可能性がある。
その代わり、ターゲット遺伝子に近いマルチモーダルなエピゲノミクス信号がより重要であることが判明した。
異なる背景近位状態を表すために高次元のエピジェノミック特徴の複数組み合わせを学習するフレームワークであるPrismを提案する。
- 参考スコア(独自算出の注目度): 15.79385231366071
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gene expression prediction, which predicts mRNA expression levels from DNA sequences, presents significant challenges. Previous works often focus on extending input sequence length to locate distal enhancers, which may influence target genes from hundreds of kilobases away. Our work first reveals that for current models, long sequence modeling can decrease performance. Even carefully designed algorithms only mitigate the performance degradation caused by long sequences. Instead, we find that proximal multimodal epigenomic signals near target genes prove more essential. Hence we focus on how to better integrate these signals, which has been overlooked. We find that different signal types serve distinct biological roles, with some directly marking active regulatory elements while others reflect background chromatin patterns that may introduce confounding effects. Simple concatenation may lead models to develop spurious associations with these background patterns. To address this challenge, we propose Prism, a framework that learns multiple combinations of high-dimensional epigenomic features to represent distinct background chromatin states and uses backdoor adjustment to mitigate confounding effects. Our experimental results demonstrate that proper modeling of multimodal epigenomic signals achieves state-of-the-art performance using only short sequences for gene expression prediction.
- Abstract(参考訳): DNA配列からmRNAの発現レベルを予測する遺伝子発現予測は、大きな課題を呈している。
以前の研究はしばしば、数百キロ塩基の標的遺伝子に影響を与える遠位エンハンサーを見つけるために入力配列の長さを拡張することに重点を置いている。
我々の研究は、まず、現在のモデルでは、長いシーケンスモデリングが性能を低下させる可能性があることを明らかにした。
さらに慎重に設計されたアルゴリズムは、長いシーケンスによるパフォーマンス劣化を緩和するだけである。
その代わり、ターゲット遺伝子に近い近位多モーダルなエピジェノミクス信号がより重要であることが判明した。
したがって、我々はこれらの信号をよりうまく統合する方法に注力する。
異なるシグナルタイプが異なる生物学的役割を担い、あるものは直接的に活性な制御要素をマークし、あるものは背景のクロマチンパターンを反映していることが判明した。
単純な結合は、モデルがこれらの背景パターンと急激な関連を発達させる可能性がある。
この課題に対処するためにPrismを提案する。これは、背景クロマチン状態を表すために高次元のエピゲノミック特徴の複数の組み合わせを学習するフレームワークであり、バックドア調整を用いて、コンバウンディング効果を緩和する。
実験結果から,多モードなエピゲノミクス信号の適切なモデリングは,短い配列のみを用いて表現予測を行い,最先端のパフォーマンスを達成できることが示唆された。
関連論文リスト
- Interpretable Perturbation Modeling Through Biomedical Knowledge Graphs [2.9275990558029075]
マルチモーダル・埋め込みは バイオメディカル・ナレッジ・グラフに統合されます
薬物細胞対のランドマーク遺伝子のデルタ表現プロファイルを学習するために,グラフアテンションネットワークを訓練する。
我々の枠組みは、メカニスティックな薬物モデリングへの道筋を提供する。
論文 参考訳(メタデータ) (2025-12-24T04:42:25Z) - GenAR: Next-Scale Autoregressive Generation for Spatial Gene Expression Prediction [15.143858141542532]
GenARは、粗いものから細かいものまで予測を洗練するマルチスケールの自動回帰フレームワークである。
我々は、粗い予測から細かい予測を洗練するマルチスケール自動回帰フレームワークGenARを紹介する。
GenARは、最先端のパフォーマンスを原則として達成し、精密医療とコスト効率のよい分子プロファイリングに潜在的に影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2025-10-05T18:28:21Z) - Evaluating DNA function understanding in genomic language models using evolutionarily implausible sequences [0.25489046505746704]
我々はNullsettesというベンチマークを導入し、Siliico Los-of-function(LOF)変異においてモデルがどのように予測できるかを評価する。
殆どの人は強いLOF変異を一貫して検出できない。
全てのモデルでは、元の(不変)配列に割り当てられる確率が減少するにつれて、予測精度が急落する。
論文 参考訳(メタデータ) (2025-06-12T01:28:04Z) - GRAPE: Heterogeneous Graph Representation Learning for Genetic Perturbation with Coding and Non-Coding Biotype [51.58774936662233]
遺伝子制御ネットワーク(GRN)の構築は、遺伝的摂動の影響を理解し予測するために不可欠である。
本研究では,事前学習した大規模言語モデルとDNAシークエンスモデルを用いて,遺伝子記述やDNAシークエンスデータから特徴を抽出する。
我々は、遺伝子摂動において初めて遺伝子バイオタイプ情報を導入し、細胞プロセスの制御において異なるバイオタイプを持つ遺伝子の異なる役割をシミュレートした。
論文 参考訳(メタデータ) (2025-05-06T03:35:24Z) - Predicting gene essentiality and drug response from perturbation screens in preclinical cancer models with LEAP: Layered Ensemble of Autoencoders and Predictors [4.882734501598445]
既存の予測モデルは限定的、一般化可能性、解釈可能性に悩まされている。
自動エンコーダと予測器の階層化フレームワーク(LEAP)について紹介する。
LEAPは、モデリング戦略を越えて、未スクリーンのセルラインでの予測性能を一貫して改善する。
論文 参考訳(メタデータ) (2025-02-21T18:12:36Z) - Learning to Discover Regulatory Elements for Gene Expression Prediction [59.470991831978516]
Seq2Expは、ターゲット遺伝子発現を駆動する制御要素を発見し、抽出するために設計されたSequence to Expressionネットワークである。
本手法は, エピジェノミックシグナル, DNA 配列とその関連因子の因果関係を捉える。
論文 参考訳(メタデータ) (2025-02-19T03:25:49Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Predicting Genetic Mutation from Whole Slide Images via Biomedical-Linguistic Knowledge Enhanced Multi-label Classification [119.13058298388101]
遺伝子変異予測性能を向上させるため,生物知識を付加したPathGenomic Multi-label Transformerを開発した。
BPGTはまず、2つの慎重に設計されたモジュールによって遺伝子前駆体を構成する新しい遺伝子エンコーダを確立する。
BPGTはその後ラベルデコーダを設計し、最終的に2つの調整されたモジュールによる遺伝的突然変異予測を行う。
論文 参考訳(メタデータ) (2024-06-05T06:42:27Z) - Reprogramming Pretrained Language Models for Antibody Sequence Infilling [72.13295049594585]
抗体の計算設計には、構造的一貫性を維持しながら、新規で多様な配列を生成することが含まれる。
近年のディープラーニングモデルでは優れた結果が得られたが、既知の抗体配列/構造対の数が限られているため、性能が劣化することが多い。
これは、ソース言語でトレーニング済みのモデルを再利用して、異なる言語で、データが少ないタスクに適応するものです。
論文 参考訳(メタデータ) (2022-10-05T20:44:55Z) - Diversifying Design of Nucleic Acid Aptamers Using Unsupervised Machine
Learning [54.247560894146105]
短い一本鎖RNAとDNA配列(アプタマー)の逆設計は、一連の望ましい基準を満たす配列を見つけるタスクである。
我々は、Pottsモデルとして知られる教師なし機械学習モデルを用いて、制御可能なシーケンスの多様性を持つ新しい有用なシーケンスを発見することを提案する。
論文 参考訳(メタデータ) (2022-08-10T13:30:58Z) - SemanticCAP: Chromatin Accessibility Prediction Enhanced by Features
Learning from a Language Model [3.0643865202019698]
本稿では、ゲノムのアクセス可能な領域を特定するためのSemanticCAPという新しいソリューションを提案する。
遺伝子配列のコンテキストをモデル化する遺伝子モデルを導入し、遺伝子配列の効果的な表現を提供する。
公開ベンチマークによる他のシステムと比較すると,我々のモデルは性能が向上することが判明した。
論文 参考訳(メタデータ) (2022-04-05T11:47:58Z) - SimpleChrome: Encoding of Combinatorial Effects for Predicting Gene
Expression [8.326669256957352]
遺伝子のヒストン修飾表現を学習するディープラーニングモデルであるSimpleChromeを紹介します。
このモデルから得られた特徴により、遺伝子間相互作用の潜在効果と標的遺伝子の発現に対する直接遺伝子調節をよりよく理解することができます。
論文 参考訳(メタデータ) (2020-12-15T23:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。