論文の概要: Large-Scale Multi-omic Biosequence Transformers for Modeling Protein-Nucleic Acid Interactions
- arxiv url: http://arxiv.org/abs/2408.16245v3
- Date: Tue, 01 Apr 2025 17:10:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-02 14:11:28.388188
- Title: Large-Scale Multi-omic Biosequence Transformers for Modeling Protein-Nucleic Acid Interactions
- Title(参考訳): タンパク質-核酸相互作用のモデリングのための大規模多相バイオシークエンストランス
- Authors: Sully F. Chen, Robert J. Steele, Glen M. Hocky, Beakal Lemeneh, Shivanand P. Lad, Eric K. Oermann,
- Abstract要約: 我々は,これまでで最大のオープンソースマルチオミック基盤モデルについて紹介する。
これらのマルチオミクスモデルは、様々な単一オミクス分布間の結合表現を学習可能であることを示す。
また,MOMを微調整して,タンパク質-核酸相互作用タスクの最先端結果が得られることを示した。
- 参考スコア(独自算出の注目度): 4.36852565205713
- License:
- Abstract: The transformer architecture has revolutionized bioinformatics and driven progress in the understanding and prediction of the properties of biomolecules. Almost all research on large-scale biosequence transformers has focused on one domain at a time (single-omic), usually DNA/RNA or proteins. These models have seen incredible success in downstream tasks in each domain, and have achieved particularly noteworthy breakthroughs in sequence modeling and structural modeling. However, these single-omic models are naturally incapable of efficiently modeling multi-omic tasks, one of the most biologically critical being protein-nucleic acid interactions. We present our work training the largest open-source multi-omic foundation model to date. We show that these multi-omic models (MOMs) can learn joint representations between various single-omic distributions that are emergently consistent with the Central Dogma of molecular biology despite only being trained on unlabeled biosequences. We further demonstrate that MOMs can be fine-tuned to achieve state-of-the-art results on protein-nucleic acid interaction tasks, namely predicting the change in Gibbs free energy ($\Delta G$) of the binding interaction between a given nucleic acid and protein. Remarkably, we show that multi-omic biosequence transformers emergently learn useful structural information without any \textit{a priori} structural training, allowing us to predict which protein residues are most involved in the protein-nucleic acid binding interaction. Lastly, we provide evidence that multi-omic biosequence models are in many cases superior to foundation models trained on single-omics distributions, both in performance-per-FLOP and absolute performance, suggesting a more generalized or foundational approach to building these models for biology.
- Abstract(参考訳): トランスフォーマーアーキテクチャはバイオインフォマティクスに革命をもたらし、生体分子の性質の理解と予測の進歩を促した。
大規模バイオシークエンストランスフォーマーの研究のほとんど全ては、一度に1つのドメイン(単一オーミック、通常DNA/RNAまたはタンパク質)に焦点を当てている。
これらのモデルは、各領域における下流タスクにおいて驚くべき成功を収め、シーケンスモデリングと構造モデリングにおいて特に注目すべきブレークスルーを達成した。
しかしながら、これらの単一オーミックモデルは、タンパク質-核酸相互作用において最も生物学的に重要な、マルチオーミックなタスクを効率的にモデル化することができない。
我々は,これまでで最大のオープンソースマルチオミック基盤モデルについて紹介する。
これらのマルチオーミックモデル(MOM)は,未ラベルの生物配列でのみ訓練されているにもかかわらず,分子生物学の中央ドグマと突発的に一致した様々な単一オーミック分布間の結合表現を学習可能であることを示す。
さらに、MOMは、与えられた核酸とタンパク質の結合相互作用のギブス自由エネルギー(\Delta G$)の変化を予測し、タンパク質-核酸相互作用タスクの最先端の結果を得るために微調整できることを示した。
ここでは, タンパク質-核酸結合相互作用にどのタンパク質残基が最も関与しているかを予測するために, 構造トレーニングを一切行わずに, 有用構造情報を即時学習できることを述べる。
最後に,マルチオミックなバイオシーケンスモデルが単一オミクス分布で訓練された基礎モデルよりも,性能/FLOPと絶対性能の両方において優れていることを示すとともに,これらのモデルの構築に対するより一般化された,あるいは基礎的なアプローチが示唆されている。
関連論文リスト
- Life-Code: Central Dogma Modeling with Multi-Omics Sequence Unification [53.488387420073536]
Life-Codeは、様々な生物学的機能にまたがる包括的なフレームワークである。
Life-Codeは3つのオミクスにまたがる様々なタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-11T06:53:59Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本研究では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデルを提案する。
このモデルは分子生物学の中心的なドグマに固執し、タンパク質のコード配列を正確に生成する。
また、特にプロモーター配列の即応的な生成を通じて、シーケンス最適化において大きな可能性を示している。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - M2oE: Multimodal Collaborative Expert Peptide Model [0.0]
本稿では,M2oE多モード協調専門家ペプチドモデルを提案する。
従来の研究に基づいて、シーケンスと空間構造情報を統合し、エキスパートモデルとクロスアテンションメカニズムを用いることで、モデルの能力は均衡し、改善される。
実験結果から,M2oEモデルは複雑なタスク予測に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-11-20T09:52:52Z) - Multi-Peptide: Multimodality Leveraged Language-Graph Learning of Peptide Properties [5.812284760539713]
Multi-Peptideは、トランスフォーマーベースの言語モデルとグラフニューラルネットワーク(GNN)を組み合わせてペプチドの性質を予測する革新的なアプローチである。
溶血性データセットおよび非汚泥性データセットの評価は、多ペプチドの堅牢性を示し、溶血性予測における最先端86.185%の精度を達成する。
本研究は, 生体情報学におけるマルチモーダル学習の可能性を強調し, ペプチドを用いた研究・応用における正確かつ信頼性の高い予測方法を模索する。
論文 参考訳(メタデータ) (2024-07-02T20:13:47Z) - Multi-modal Transfer Learning between Biological Foundation Models [2.6545450959042234]
そこで本研究では,DNA,RNA,タンパク質を結合するマルチモーダル特異的モデルを提案する。
我々のモデルはIsoFormerと呼ばれ、既存の手法よりも優れた差分転写表現を正確に予測できることを示します。
我々は、新しいマルチモーダル遺伝子表現アプローチの道を開くために、我々のモデルをオープンソース化した。
論文 参考訳(メタデータ) (2024-06-20T09:44:53Z) - Towards Joint Sequence-Structure Generation of Nucleic Acid and Protein
Complexes with SE(3)-Discrete Diffusion [4.292173366949847]
MMDiffは核酸とタンパク質複合体の配列と構造を独立に、あるいは複雑に共同で設計する生成モデルである。
このようなモデルは、構造に基づく転写因子の設計や非コードRNA配列の設計を含む、マクロ分子設計の新しい領域に重要な意味を持つ。
論文 参考訳(メタデータ) (2023-12-21T05:53:33Z) - Atom-Motif Contrastive Transformer for Molecular Property Prediction [68.85399466928976]
グラフトランス (GT) モデルは分子特性予測 (MPP) のタスクで広く利用されている。
本稿では,原子レベルの相互作用を探索し,モチーフレベルの相互作用を考慮した新しいAtom-Motif Contrastive Transformer(AMCT)を提案する。
提案したAMCTは,7つの一般的なベンチマークデータセットに対して広範囲に評価され,定量的および定性的な結果の両方が有効であることを示す。
論文 参考訳(メタデータ) (2023-10-11T10:03:10Z) - Efficient Prediction of Peptide Self-assembly through Sequential and
Graphical Encoding [57.89530563948755]
この研究は、高度なディープラーニングモデルを用いたペプチドエンコーディングのベンチマーク分析を提供する。
等電点や水和自由エネルギーなど、幅広いペプチド関連予測のガイドとして機能する。
論文 参考訳(メタデータ) (2023-07-17T00:43:33Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。