論文の概要: Large-Scale Multi-omic Biosequence Transformers for Modeling Peptide-Nucleotide Interactions
- arxiv url: http://arxiv.org/abs/2408.16245v1
- Date: Thu, 29 Aug 2024 03:56:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-08-30 15:05:40.508169
- Title: Large-Scale Multi-omic Biosequence Transformers for Modeling Peptide-Nucleotide Interactions
- Title(参考訳): ペプチド-ヌクレオチド相互作用のモデル化のための大規模多モードバイオシークエンストランス
- Authors: Sully F. Chen, Robert J. Steele, Beakal Lemeneh, Shivanand P. Lad, Eric Oermann,
- Abstract要約: 本研究は,最初のマルチオミックヌクレオチド-ペプチド基盤モデルについて述べる。
これらのマルチオミクスモデルは、様々な単一オミクス分布間の結合表現を学習可能であることを示す。
また,MOMはペプチド-ヌクレオチド相互作用タスクにおける最先端の結果を得るために微調整できることを示した。
- 参考スコア(独自算出の注目度): 2.84640003522012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The transformer architecture has revolutionized bioinformatics and driven progress in the understanding and prediction of the properties of biomolecules. Almost all research on large-scale biosequence transformers has focused on one domain at a time (single-omic), usually nucleotides or peptides. These models have seen incredible success in downstream tasks in each domain and have achieved particularly noteworthy breakthroughs in sequences of peptides and structural modeling. However, these single-omic models are naturally incapable of modeling multi-omic tasks, one of the most biologically critical being nucleotide-peptide interactions. We present our work training the first multi-omic nucleotide-peptide foundation models. We show that these multi-omic models (MOMs) can learn joint representations between various single-omic distributions that are emergently consistent with the Central Dogma of molecular biology, despite only being trained on unlabeled biosequences. We further demonstrate that MOMs can be fine-tuned to achieve state-of-the-art results on peptide-nucleotide interaction tasks, namely predicting the change in Gibbs free energy ({\Delta}G) of the binding interaction between a given oligonucleotide and peptide, as well as the effect on this binding interaction due to mutations in the oligonucleotide sequence ({\Delta}{\Delta}G). Remarkably, we show that multi-omic biosequence transformers emergently learn useful structural information without any prior structural training, allowing us to predict which peptide residues are most involved in the peptide-nucleotide binding interaction. Lastly, we provide evidence that multi-omic biosequence models are non-inferior to foundation models trained on single-omics distributions, suggesting a more generalized or foundational approach to building these models.
- Abstract(参考訳): トランスフォーマーアーキテクチャはバイオインフォマティクスに革命をもたらし、生体分子の性質の理解と予測の進歩を促した。
大規模生物配列変換器の研究のほとんど全ては、一度に1つのドメイン(単一オーミック、通常ヌクレオチドまたはペプチド)に焦点を当てている。
これらのモデルは、各領域の下流のタスクで驚くほど成功し、ペプチド配列や構造モデリングにおいて特に顕著なブレークスルーを達成した。
しかしながら、これらの単一オーミックモデルは、生物的に最も重要なヌクレオチド-ペプチド相互作用であるマルチオーミックなタスクをモデル化することができない。
本研究は,最初のマルチオミックヌクレオチド-ペプチド基盤モデルについて述べる。
これらのマルチオミクスモデル(MOM)は,未ラベルの生物配列でのみ訓練されているにもかかわらず,分子生物学の中央ドッグマと突発的に一致した様々な単一オミクス分布の関節表現を学習できることを示す。
さらに、MOMは、与えられたオリゴヌクレオチドとペプチドの結合相互作用のギブス自由エネルギー({\Delta}G)の変化を予測し、オリゴヌクレオチド配列({\Delta}{\Delta}G)の変異によるこの結合相互作用への影響を予測し、ペプチド-ヌクレオチド相互作用タスクの最先端結果を達成するために微調整できることを示した。
また, ペプチド-ヌクレオチド結合の相互作用にどのペプチド残基が最も関与しているかを予測するために, 事前の構造訓練を必要とせず, 新規に有用な構造情報を学習できることが示唆された。
最後に、マルチオミックなバイオシーケンスモデルが単一オミクス分布で訓練された基礎モデルに非依存であることを示すとともに、これらのモデルを構築するためのより一般化された、あるいは基礎的なアプローチを示唆する。
関連論文リスト
- An All-Atom Generative Model for Designing Protein Complexes [49.09672038729524]
APM(All-Atom Protein Generative Model)は、マルチチェーンタンパク質をモデル化するためのモデルである。
原子レベルの情報を統合し、多鎖タンパク質のデータを活用することで、APMは鎖間相互作用を正確にモデル化し、結合能力を持つタンパク質複合体をゼロから設計することができる。
論文 参考訳(メタデータ) (2025-04-17T16:37:41Z) - UniGenX: Unified Generation of Sequence and Structure with Autoregressive Diffusion [61.690978792873196]
既存のアプローチは自己回帰シーケンスモデルか拡散モデルのいずれかに依存している。
自己回帰的次トーケン予測と条件拡散モデルを組み合わせた統合フレームワークUniGenXを提案する。
材料および小分子生成タスクにおけるUniGenXの有効性を検証する。
論文 参考訳(メタデータ) (2025-03-09T16:43:07Z) - A Generalist Cross-Domain Molecular Learning Framework for Structure-Based Drug Discovery [32.573496601865465]
構造に基づく薬物発見(Structure-based drug discovery、SBDD)は、標的タンパク質の詳細な物理的構造を利用して新しい薬物を開発する体系的な科学的プロセスである。
生体分子の事前学習モデルの最近の進歩は、様々な生化学的応用において顕著な成功を収めている。
論文 参考訳(メタデータ) (2025-03-06T12:04:56Z) - Life-Code: Central Dogma Modeling with Multi-Omics Sequence Unification [53.488387420073536]
Life-Codeは、様々な生物学的機能にまたがる包括的なフレームワークである。
Life-Codeは3つのオミクスにまたがる様々なタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-11T06:53:59Z) - Biology Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models [51.316001071698224]
本稿では,生物配列関連命令チューニングデータセットであるBiology-Instructionsを紹介する。
このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンスに関連するタスクのギャップを埋めることができます。
また、新たな3段階トレーニングパイプラインを備えたChatMultiOmicsという強力なベースラインも開発しています。
論文 参考訳(メタデータ) (2024-12-26T12:12:23Z) - M2oE: Multimodal Collaborative Expert Peptide Model [0.0]
本稿では,M2oE多モード協調専門家ペプチドモデルを提案する。
従来の研究に基づいて、シーケンスと空間構造情報を統合し、エキスパートモデルとクロスアテンションメカニズムを用いることで、モデルの能力は均衡し、改善される。
実験結果から,M2oEモデルは複雑なタスク予測に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-11-20T09:52:52Z) - SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - DPLM-2: A Multimodal Diffusion Protein Language Model [75.98083311705182]
DPLM-2は, 離散拡散タンパク質言語モデル(DPLM)を拡張し, 配列と構造の両方に適合する多モーダルタンパク質基盤モデルである。
DPLM-2は、配列と構造、およびその限界と条件の結合分布を学習する。
実験によりDPLM-2は高度に互換性のあるアミノ酸配列とそれに対応する3D構造を同時に生成できることが示された。
論文 参考訳(メタデータ) (2024-10-17T17:20:24Z) - BSM: Small but Powerful Biological Sequence Model for Genes and Proteins [6.6055625629542085]
小型ながら強力な混合モード生物配列基盤モデルであるBSMを導入する。
RefSeq、Gene Related Sequences、およびWebから生物学的シークエンスをインターリーブした3種類のデータに基づいてトレーニングされている。
学習効率とクロスモーダル表現を著しく向上させ、非モーダルデータにのみ訓練されたモデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-15T11:12:28Z) - Multi-Peptide: Multimodality Leveraged Language-Graph Learning of Peptide Properties [5.812284760539713]
Multi-Peptideは、トランスフォーマーベースの言語モデルとグラフニューラルネットワーク(GNN)を組み合わせてペプチドの性質を予測する革新的なアプローチである。
溶血性データセットおよび非汚泥性データセットの評価は、多ペプチドの堅牢性を示し、溶血性予測における最先端86.185%の精度を達成する。
本研究は, 生体情報学におけるマルチモーダル学習の可能性を強調し, ペプチドを用いた研究・応用における正確かつ信頼性の高い予測方法を模索する。
論文 参考訳(メタデータ) (2024-07-02T20:13:47Z) - Multi-modal Transfer Learning between Biological Foundation Models [2.6545450959042234]
そこで本研究では,DNA,RNA,タンパク質を結合するマルチモーダル特異的モデルを提案する。
我々のモデルはIsoFormerと呼ばれ、既存の手法よりも優れた差分転写表現を正確に予測できることを示します。
我々は、新しいマルチモーダル遺伝子表現アプローチの道を開くために、我々のモデルをオープンソース化した。
論文 参考訳(メタデータ) (2024-06-20T09:44:53Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering the Language of Protein [74.64101864289572]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Towards Joint Sequence-Structure Generation of Nucleic Acid and Protein
Complexes with SE(3)-Discrete Diffusion [4.292173366949847]
MMDiffは核酸とタンパク質複合体の配列と構造を独立に、あるいは複雑に共同で設計する生成モデルである。
このようなモデルは、構造に基づく転写因子の設計や非コードRNA配列の設計を含む、マクロ分子設計の新しい領域に重要な意味を持つ。
論文 参考訳(メタデータ) (2023-12-21T05:53:33Z) - Navigating protein landscapes with a machine-learned transferable
coarse-grained model [29.252004942896875]
同様の予測性能を持つ粗粒度(CG)モデルは、長年にわたる課題である。
ケミカルトランスポータビリティを持つボトムアップCG力場を開発し,新しい配列の分子動力学に利用することができる。
本モデルでは, 折り畳み構造, 中間体, メタスタブル折り畳み型および折り畳み型流域, 内在的に不規則なタンパク質のゆらぎの予測に成功している。
論文 参考訳(メタデータ) (2023-10-27T17:10:23Z) - Atom-Motif Contrastive Transformer for Molecular Property Prediction [68.85399466928976]
グラフトランス (GT) モデルは分子特性予測 (MPP) のタスクで広く利用されている。
本稿では,原子レベルの相互作用を探索し,モチーフレベルの相互作用を考慮した新しいAtom-Motif Contrastive Transformer(AMCT)を提案する。
提案したAMCTは,7つの一般的なベンチマークデータセットに対して広範囲に評価され,定量的および定性的な結果の両方が有効であることを示す。
論文 参考訳(メタデータ) (2023-10-11T10:03:10Z) - Efficient Prediction of Peptide Self-assembly through Sequential and
Graphical Encoding [57.89530563948755]
この研究は、高度なディープラーニングモデルを用いたペプチドエンコーディングのベンチマーク分析を提供する。
等電点や水和自由エネルギーなど、幅広いペプチド関連予測のガイドとして機能する。
論文 参考訳(メタデータ) (2023-07-17T00:43:33Z) - Bidirectional Generation of Structure and Properties Through a Single
Molecular Foundation Model [44.60174246341653]
本稿では, 構造と生化学的性質を組み込んだ, 新規なマルチモーダル分子事前学習モデルを提案する。
提案するデータハンドリングおよびトレーニング目的のモデルパイプラインは、共通埋め込み空間における構造/プロパティの特徴を整合させる。
これらのコントリビューションは相乗的知識を生み出し、単一のモデルでマルチモーダルと非モーダルの両方の下流タスクに取り組むことができる。
論文 参考訳(メタデータ) (2022-11-19T05:16:08Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z) - Diversifying Design of Nucleic Acid Aptamers Using Unsupervised Machine
Learning [54.247560894146105]
短い一本鎖RNAとDNA配列(アプタマー)の逆設計は、一連の望ましい基準を満たす配列を見つけるタスクである。
我々は、Pottsモデルとして知られる教師なし機械学習モデルを用いて、制御可能なシーケンスの多様性を持つ新しい有用なシーケンスを発見することを提案する。
論文 参考訳(メタデータ) (2022-08-10T13:30:58Z) - Protein Structure and Sequence Generation with Equivariant Denoising
Diffusion Probabilistic Models [3.5450828190071646]
バイオエンジニアリングにおける重要な課題は、特定の3D構造と標的機能を可能にする化学的性質を持つタンパク質を設計することである。
タンパク質の構造と配列の両方の生成モデルを導入し、従来の分子生成モデルよりもはるかに大きなスケールで操作できる。
論文 参考訳(メタデータ) (2022-05-26T16:10:09Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。