論文の概要: Large-Scale Multi-omic Biosequence Transformers for Modeling Peptide-Nucleotide Interactions
- arxiv url: http://arxiv.org/abs/2408.16245v1
- Date: Thu, 29 Aug 2024 03:56:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 15:05:40.508169
- Title: Large-Scale Multi-omic Biosequence Transformers for Modeling Peptide-Nucleotide Interactions
- Title(参考訳): ペプチド-ヌクレオチド相互作用のモデル化のための大規模多モードバイオシークエンストランス
- Authors: Sully F. Chen, Robert J. Steele, Beakal Lemeneh, Shivanand P. Lad, Eric Oermann,
- Abstract要約: 本研究は,最初のマルチオミックヌクレオチド-ペプチド基盤モデルについて述べる。
これらのマルチオミクスモデルは、様々な単一オミクス分布間の結合表現を学習可能であることを示す。
また,MOMはペプチド-ヌクレオチド相互作用タスクにおける最先端の結果を得るために微調整できることを示した。
- 参考スコア(独自算出の注目度): 2.84640003522012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The transformer architecture has revolutionized bioinformatics and driven progress in the understanding and prediction of the properties of biomolecules. Almost all research on large-scale biosequence transformers has focused on one domain at a time (single-omic), usually nucleotides or peptides. These models have seen incredible success in downstream tasks in each domain and have achieved particularly noteworthy breakthroughs in sequences of peptides and structural modeling. However, these single-omic models are naturally incapable of modeling multi-omic tasks, one of the most biologically critical being nucleotide-peptide interactions. We present our work training the first multi-omic nucleotide-peptide foundation models. We show that these multi-omic models (MOMs) can learn joint representations between various single-omic distributions that are emergently consistent with the Central Dogma of molecular biology, despite only being trained on unlabeled biosequences. We further demonstrate that MOMs can be fine-tuned to achieve state-of-the-art results on peptide-nucleotide interaction tasks, namely predicting the change in Gibbs free energy ({\Delta}G) of the binding interaction between a given oligonucleotide and peptide, as well as the effect on this binding interaction due to mutations in the oligonucleotide sequence ({\Delta}{\Delta}G). Remarkably, we show that multi-omic biosequence transformers emergently learn useful structural information without any prior structural training, allowing us to predict which peptide residues are most involved in the peptide-nucleotide binding interaction. Lastly, we provide evidence that multi-omic biosequence models are non-inferior to foundation models trained on single-omics distributions, suggesting a more generalized or foundational approach to building these models.
- Abstract(参考訳): トランスフォーマーアーキテクチャはバイオインフォマティクスに革命をもたらし、生体分子の性質の理解と予測の進歩を促した。
大規模生物配列変換器の研究のほとんど全ては、一度に1つのドメイン(単一オーミック、通常ヌクレオチドまたはペプチド)に焦点を当てている。
これらのモデルは、各領域の下流のタスクで驚くほど成功し、ペプチド配列や構造モデリングにおいて特に顕著なブレークスルーを達成した。
しかしながら、これらの単一オーミックモデルは、生物的に最も重要なヌクレオチド-ペプチド相互作用であるマルチオーミックなタスクをモデル化することができない。
本研究は,最初のマルチオミックヌクレオチド-ペプチド基盤モデルについて述べる。
これらのマルチオミクスモデル(MOM)は,未ラベルの生物配列でのみ訓練されているにもかかわらず,分子生物学の中央ドッグマと突発的に一致した様々な単一オミクス分布の関節表現を学習できることを示す。
さらに、MOMは、与えられたオリゴヌクレオチドとペプチドの結合相互作用のギブス自由エネルギー({\Delta}G)の変化を予測し、オリゴヌクレオチド配列({\Delta}{\Delta}G)の変異によるこの結合相互作用への影響を予測し、ペプチド-ヌクレオチド相互作用タスクの最先端結果を達成するために微調整できることを示した。
また, ペプチド-ヌクレオチド結合の相互作用にどのペプチド残基が最も関与しているかを予測するために, 事前の構造訓練を必要とせず, 新規に有用な構造情報を学習できることが示唆された。
最後に、マルチオミックなバイオシーケンスモデルが単一オミクス分布で訓練された基礎モデルに非依存であることを示すとともに、これらのモデルを構築するためのより一般化された、あるいは基礎的なアプローチを示唆する。
関連論文リスト
- M2oE: Multimodal Collaborative Expert Peptide Model [0.0]
本稿では,M2oE多モード協調専門家ペプチドモデルを提案する。
従来の研究に基づいて、シーケンスと空間構造情報を統合し、エキスパートモデルとクロスアテンションメカニズムを用いることで、モデルの能力は均衡し、改善される。
実験結果から,M2oEモデルは複雑なタスク予測に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-11-20T09:52:52Z) - DPLM-2: A Multimodal Diffusion Protein Language Model [75.98083311705182]
DPLM-2は, 離散拡散タンパク質言語モデル(DPLM)を拡張し, 配列と構造の両方に適合する多モーダルタンパク質基盤モデルである。
DPLM-2は、配列と構造、およびその限界と条件の結合分布を学習する。
実験によりDPLM-2は高度に互換性のあるアミノ酸配列とそれに対応する3D構造を同時に生成できることが示された。
論文 参考訳(メタデータ) (2024-10-17T17:20:24Z) - Multi-Peptide: Multimodality Leveraged Language-Graph Learning of Peptide Properties [5.812284760539713]
Multi-Peptideは、トランスフォーマーベースの言語モデルとグラフニューラルネットワーク(GNN)を組み合わせてペプチドの性質を予測する革新的なアプローチである。
溶血性データセットおよび非汚泥性データセットの評価は、多ペプチドの堅牢性を示し、溶血性予測における最先端86.185%の精度を達成する。
本研究は, 生体情報学におけるマルチモーダル学習の可能性を強調し, ペプチドを用いた研究・応用における正確かつ信頼性の高い予測方法を模索する。
論文 参考訳(メタデータ) (2024-07-02T20:13:47Z) - Multi-modal Transfer Learning between Biological Foundation Models [2.6545450959042234]
そこで本研究では,DNA,RNA,タンパク質を結合するマルチモーダル特異的モデルを提案する。
我々のモデルはIsoFormerと呼ばれ、既存の手法よりも優れた差分転写表現を正確に予測できることを示します。
我々は、新しいマルチモーダル遺伝子表現アプローチの道を開くために、我々のモデルをオープンソース化した。
論文 参考訳(メタデータ) (2024-06-20T09:44:53Z) - Towards Joint Sequence-Structure Generation of Nucleic Acid and Protein
Complexes with SE(3)-Discrete Diffusion [4.292173366949847]
MMDiffは核酸とタンパク質複合体の配列と構造を独立に、あるいは複雑に共同で設計する生成モデルである。
このようなモデルは、構造に基づく転写因子の設計や非コードRNA配列の設計を含む、マクロ分子設計の新しい領域に重要な意味を持つ。
論文 参考訳(メタデータ) (2023-12-21T05:53:33Z) - Atom-Motif Contrastive Transformer for Molecular Property Prediction [68.85399466928976]
グラフトランス (GT) モデルは分子特性予測 (MPP) のタスクで広く利用されている。
本稿では,原子レベルの相互作用を探索し,モチーフレベルの相互作用を考慮した新しいAtom-Motif Contrastive Transformer(AMCT)を提案する。
提案したAMCTは,7つの一般的なベンチマークデータセットに対して広範囲に評価され,定量的および定性的な結果の両方が有効であることを示す。
論文 参考訳(メタデータ) (2023-10-11T10:03:10Z) - Efficient Prediction of Peptide Self-assembly through Sequential and
Graphical Encoding [57.89530563948755]
この研究は、高度なディープラーニングモデルを用いたペプチドエンコーディングのベンチマーク分析を提供する。
等電点や水和自由エネルギーなど、幅広いペプチド関連予測のガイドとして機能する。
論文 参考訳(メタデータ) (2023-07-17T00:43:33Z) - Bidirectional Generation of Structure and Properties Through a Single
Molecular Foundation Model [44.60174246341653]
本稿では, 構造と生化学的性質を組み込んだ, 新規なマルチモーダル分子事前学習モデルを提案する。
提案するデータハンドリングおよびトレーニング目的のモデルパイプラインは、共通埋め込み空間における構造/プロパティの特徴を整合させる。
これらのコントリビューションは相乗的知識を生み出し、単一のモデルでマルチモーダルと非モーダルの両方の下流タスクに取り組むことができる。
論文 参考訳(メタデータ) (2022-11-19T05:16:08Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z) - Diversifying Design of Nucleic Acid Aptamers Using Unsupervised Machine
Learning [54.247560894146105]
短い一本鎖RNAとDNA配列(アプタマー)の逆設計は、一連の望ましい基準を満たす配列を見つけるタスクである。
我々は、Pottsモデルとして知られる教師なし機械学習モデルを用いて、制御可能なシーケンスの多様性を持つ新しい有用なシーケンスを発見することを提案する。
論文 参考訳(メタデータ) (2022-08-10T13:30:58Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。