論文の概要: Large-Scale Multi-omic Biosequence Transformers for Modeling Protein-Nucleic Acid Interactions
- arxiv url: http://arxiv.org/abs/2408.16245v4
- Date: Tue, 03 Jun 2025 07:17:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.38715
- Title: Large-Scale Multi-omic Biosequence Transformers for Modeling Protein-Nucleic Acid Interactions
- Title(参考訳): タンパク質-核酸相互作用のモデリングのための大規模多相バイオシークエンストランス
- Authors: Sully F. Chen, Robert J. Steele, Glen M. Hocky, Beakal Lemeneh, Shivanand P. Lad, Eric K. Oermann,
- Abstract要約: OmniBioTEは,250億以上のタンパク質と核酸を混合したトークンをトレーニングした,オープンソースのマルチオミックモデルである。
我々は,OmbiBioTEが与えられた核酸とタンパク質の結合相互作用のギブス自由エネルギー(DeltaG)の変化を予測できることを示す。
- 参考スコア(独自算出の注目度): 4.36852565205713
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The transformer architecture has revolutionized bioinformatics and driven progress in the understanding and prediction of the properties of biomolecules. To date, most biosequence transformers have been trained on a single omic-either proteins or nucleic acids and have seen incredible success in downstream tasks in each domain with particularly noteworthy breakthroughs in protein structural modeling. However, single-omic pre-training limits the ability of these models to capture cross-modal interactions. Here we present OmniBioTE, the largest open-source multi-omic model trained on over 250 billion tokens of mixed protein and nucleic acid data. We show that despite only being trained on unlabelled sequence data, OmniBioTE learns joint representations consistent with the central dogma of molecular biology. We further demonstrate that OmbiBioTE achieves state-of-the-art results predicting the change in Gibbs free energy ({\Delta}G) of the binding interaction between a given nucleic acid and protein. Remarkably, we show that multi-omic biosequence transformers emergently learn useful structural information without any a priori structural training, allowing us to predict which protein residues are most involved in the protein-nucleic acid binding interaction. Lastly, compared to single-omic controls trained with identical compute, OmniBioTE demonstrates superior performance-per-FLOP and absolute accuracy across both multi-omic and single-omic benchmarks, highlighting the power of a unified modeling approach for biological sequences.
- Abstract(参考訳): トランスフォーマーアーキテクチャはバイオインフォマティクスに革命をもたらし、生体分子の性質の理解と予測の進歩を促した。
これまで、ほとんどのバイオシーケンストランスフォーマーは、単一アミノ酸または核酸で訓練されており、タンパク質構造モデリングにおいて特に注目すべきブレークスルーとともに、各ドメインの下流タスクで驚くべき成功を収めてきた。
しかし、単調な事前学習は、これらのモデルがモーダル間相互作用をキャプチャする能力を制限する。
OmniBioTEは、250億以上のタンパク質と核酸のデータで訓練された、最大のオープンソースマルチオミックモデルである。
オムニビオテは, 分子生物学の中心的ドグマと一致した関節表現を学習した。
さらに、OmbiBioTEは、与えられた核酸とタンパク質の結合相互作用のギブス自由エネルギー({\Delta}G)の変化を予測する最先端の結果を達成することを実証した。
ここでは, タンパク質-核酸結合相互作用にどのタンパク質残基が最も関与しているかを予測するために, 先行的な構造訓練を使わずに, 新規に有用な構造情報を学習できることが注目された。
最後に、OmniBioTEは、同一の計算で訓練されたシングルオミック制御と比較して、マルチオミックとシングルオミックのベンチマークにおいて、優れたパフォーマンスと絶対精度を示し、生物学的シーケンスに対する統一モデリングアプローチのパワーを強調している。
関連論文リスト
- An All-Atom Generative Model for Designing Protein Complexes [49.09672038729524]
APM(All-Atom Protein Generative Model)は、マルチチェーンタンパク質をモデル化するためのモデルである。
原子レベルの情報を統合し、多鎖タンパク質のデータを活用することで、APMは鎖間相互作用を正確にモデル化し、結合能力を持つタンパク質複合体をゼロから設計することができる。
論文 参考訳(メタデータ) (2025-04-17T16:37:41Z) - UniGenX: Unified Generation of Sequence and Structure with Autoregressive Diffusion [61.690978792873196]
既存のアプローチは自己回帰シーケンスモデルか拡散モデルのいずれかに依存している。
自己回帰的次トーケン予測と条件拡散モデルを組み合わせた統合フレームワークUniGenXを提案する。
材料および小分子生成タスクにおけるUniGenXの有効性を検証する。
論文 参考訳(メタデータ) (2025-03-09T16:43:07Z) - A Generalist Cross-Domain Molecular Learning Framework for Structure-Based Drug Discovery [32.573496601865465]
構造に基づく薬物発見(Structure-based drug discovery、SBDD)は、標的タンパク質の詳細な物理的構造を利用して新しい薬物を開発する体系的な科学的プロセスである。
生体分子の事前学習モデルの最近の進歩は、様々な生化学的応用において顕著な成功を収めている。
論文 参考訳(メタデータ) (2025-03-06T12:04:56Z) - Life-Code: Central Dogma Modeling with Multi-Omics Sequence Unification [53.488387420073536]
Life-Codeは、様々な生物学的機能にまたがる包括的なフレームワークである。
Life-Codeは3つのオミクスにまたがる様々なタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-11T06:53:59Z) - Biology Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models [51.316001071698224]
本稿では,生物配列関連命令チューニングデータセットであるBiology-Instructionsを紹介する。
このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンスに関連するタスクのギャップを埋めることができます。
また、新たな3段階トレーニングパイプラインを備えたChatMultiOmicsという強力なベースラインも開発しています。
論文 参考訳(メタデータ) (2024-12-26T12:12:23Z) - M2oE: Multimodal Collaborative Expert Peptide Model [0.0]
本稿では,M2oE多モード協調専門家ペプチドモデルを提案する。
従来の研究に基づいて、シーケンスと空間構造情報を統合し、エキスパートモデルとクロスアテンションメカニズムを用いることで、モデルの能力は均衡し、改善される。
実験結果から,M2oEモデルは複雑なタスク予測に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-11-20T09:52:52Z) - SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - DPLM-2: A Multimodal Diffusion Protein Language Model [75.98083311705182]
DPLM-2は, 離散拡散タンパク質言語モデル(DPLM)を拡張し, 配列と構造の両方に適合する多モーダルタンパク質基盤モデルである。
DPLM-2は、配列と構造、およびその限界と条件の結合分布を学習する。
実験によりDPLM-2は高度に互換性のあるアミノ酸配列とそれに対応する3D構造を同時に生成できることが示された。
論文 参考訳(メタデータ) (2024-10-17T17:20:24Z) - BSM: Small but Powerful Biological Sequence Model for Genes and Proteins [6.6055625629542085]
小型ながら強力な混合モード生物配列基盤モデルであるBSMを導入する。
RefSeq、Gene Related Sequences、およびWebから生物学的シークエンスをインターリーブした3種類のデータに基づいてトレーニングされている。
学習効率とクロスモーダル表現を著しく向上させ、非モーダルデータにのみ訓練されたモデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-15T11:12:28Z) - Multi-Peptide: Multimodality Leveraged Language-Graph Learning of Peptide Properties [5.812284760539713]
Multi-Peptideは、トランスフォーマーベースの言語モデルとグラフニューラルネットワーク(GNN)を組み合わせてペプチドの性質を予測する革新的なアプローチである。
溶血性データセットおよび非汚泥性データセットの評価は、多ペプチドの堅牢性を示し、溶血性予測における最先端86.185%の精度を達成する。
本研究は, 生体情報学におけるマルチモーダル学習の可能性を強調し, ペプチドを用いた研究・応用における正確かつ信頼性の高い予測方法を模索する。
論文 参考訳(メタデータ) (2024-07-02T20:13:47Z) - Multi-modal Transfer Learning between Biological Foundation Models [2.6545450959042234]
そこで本研究では,DNA,RNA,タンパク質を結合するマルチモーダル特異的モデルを提案する。
我々のモデルはIsoFormerと呼ばれ、既存の手法よりも優れた差分転写表現を正確に予測できることを示します。
我々は、新しいマルチモーダル遺伝子表現アプローチの道を開くために、我々のモデルをオープンソース化した。
論文 参考訳(メタデータ) (2024-06-20T09:44:53Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering the Language of Protein [74.64101864289572]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Towards Joint Sequence-Structure Generation of Nucleic Acid and Protein
Complexes with SE(3)-Discrete Diffusion [4.292173366949847]
MMDiffは核酸とタンパク質複合体の配列と構造を独立に、あるいは複雑に共同で設計する生成モデルである。
このようなモデルは、構造に基づく転写因子の設計や非コードRNA配列の設計を含む、マクロ分子設計の新しい領域に重要な意味を持つ。
論文 参考訳(メタデータ) (2023-12-21T05:53:33Z) - Navigating protein landscapes with a machine-learned transferable
coarse-grained model [29.252004942896875]
同様の予測性能を持つ粗粒度(CG)モデルは、長年にわたる課題である。
ケミカルトランスポータビリティを持つボトムアップCG力場を開発し,新しい配列の分子動力学に利用することができる。
本モデルでは, 折り畳み構造, 中間体, メタスタブル折り畳み型および折り畳み型流域, 内在的に不規則なタンパク質のゆらぎの予測に成功している。
論文 参考訳(メタデータ) (2023-10-27T17:10:23Z) - Atom-Motif Contrastive Transformer for Molecular Property Prediction [68.85399466928976]
グラフトランス (GT) モデルは分子特性予測 (MPP) のタスクで広く利用されている。
本稿では,原子レベルの相互作用を探索し,モチーフレベルの相互作用を考慮した新しいAtom-Motif Contrastive Transformer(AMCT)を提案する。
提案したAMCTは,7つの一般的なベンチマークデータセットに対して広範囲に評価され,定量的および定性的な結果の両方が有効であることを示す。
論文 参考訳(メタデータ) (2023-10-11T10:03:10Z) - Efficient Prediction of Peptide Self-assembly through Sequential and
Graphical Encoding [57.89530563948755]
この研究は、高度なディープラーニングモデルを用いたペプチドエンコーディングのベンチマーク分析を提供する。
等電点や水和自由エネルギーなど、幅広いペプチド関連予測のガイドとして機能する。
論文 参考訳(メタデータ) (2023-07-17T00:43:33Z) - Bidirectional Generation of Structure and Properties Through a Single
Molecular Foundation Model [44.60174246341653]
本稿では, 構造と生化学的性質を組み込んだ, 新規なマルチモーダル分子事前学習モデルを提案する。
提案するデータハンドリングおよびトレーニング目的のモデルパイプラインは、共通埋め込み空間における構造/プロパティの特徴を整合させる。
これらのコントリビューションは相乗的知識を生み出し、単一のモデルでマルチモーダルと非モーダルの両方の下流タスクに取り組むことができる。
論文 参考訳(メタデータ) (2022-11-19T05:16:08Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z) - Diversifying Design of Nucleic Acid Aptamers Using Unsupervised Machine
Learning [54.247560894146105]
短い一本鎖RNAとDNA配列(アプタマー)の逆設計は、一連の望ましい基準を満たす配列を見つけるタスクである。
我々は、Pottsモデルとして知られる教師なし機械学習モデルを用いて、制御可能なシーケンスの多様性を持つ新しい有用なシーケンスを発見することを提案する。
論文 参考訳(メタデータ) (2022-08-10T13:30:58Z) - Protein Structure and Sequence Generation with Equivariant Denoising
Diffusion Probabilistic Models [3.5450828190071646]
バイオエンジニアリングにおける重要な課題は、特定の3D構造と標的機能を可能にする化学的性質を持つタンパク質を設計することである。
タンパク質の構造と配列の両方の生成モデルを導入し、従来の分子生成モデルよりもはるかに大きなスケールで操作できる。
論文 参考訳(メタデータ) (2022-05-26T16:10:09Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。