論文の概要: OneProt: Towards Multi-Modal Protein Foundation Models
- arxiv url: http://arxiv.org/abs/2411.04863v1
- Date: Thu, 07 Nov 2024 16:54:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:37:11.272196
- Title: OneProt: Towards Multi-Modal Protein Foundation Models
- Title(参考訳): OneProt: マルチモーダルタンパク質基盤モデルを目指して
- Authors: Klemens Flöge, Srisruthi Udayakumar, Johanna Sommer, Marie Piraud, Stefan Kesselheim, Vincent Fortuin, Stephan Günneman, Karel J van der Weg, Holger Gohlke, Alina Bazarova, Erinc Merdivan,
- Abstract要約: 我々は、構造、配列、アライメント、結合サイトデータを統合する、タンパク質のためのマルチモーダルAIであるOneProtを紹介する。
金属イオン結合分類、遺伝子オントロジーアノテーション、酵素機能予測など、様々な下流タスクにおける最先端の手法を超越している。
この研究は、タンパク質モデルにおけるマルチモーダル能力を拡大し、薬物発見、生物触媒反応計画、タンパク質工学の応用への道を開く。
- 参考スコア(独自算出の注目度): 5.440531199006399
- License:
- Abstract: Recent AI advances have enabled multi-modal systems to model and translate diverse information spaces. Extending beyond text and vision, we introduce OneProt, a multi-modal AI for proteins that integrates structural, sequence, alignment, and binding site data. Using the ImageBind framework, OneProt aligns the latent spaces of modality encoders along protein sequences. It demonstrates strong performance in retrieval tasks and surpasses state-of-the-art methods in various downstream tasks, including metal ion binding classification, gene-ontology annotation, and enzyme function prediction. This work expands multi-modal capabilities in protein models, paving the way for applications in drug discovery, biocatalytic reaction planning, and protein engineering.
- Abstract(参考訳): 近年のAIの進歩により、マルチモーダルシステムは多様な情報空間をモデル化し、翻訳することが可能になった。
テキストとビジョンを超えて、構造、シーケンス、アライメント、サイトデータのバインディングを統合する、タンパク質のためのマルチモーダルAIであるOneProtを導入する。
ImageBindフレームワークを使用することで、OneProtはタンパク質配列に沿ってモダリティエンコーダの潜在空間を整列させる。
検索タスクにおいて高い性能を示し、金属イオン結合分類、遺伝子オントロジーアノテーション、酵素機能予測など、様々な下流タスクにおいて最先端の手法を超越している。
この研究は、タンパク質モデルにおけるマルチモーダル能力を拡大し、薬物発見、生物触媒反応計画、タンパク質工学の応用への道を開く。
関連論文リスト
- SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - Long-context Protein Language Model [76.95505296417866]
言語モデル(LM)の自己教師による訓練は、有意義な表現の学習や創薬設計において、タンパク質配列に大きな成功を収めている。
ほとんどのタンパク質LMは、短い文脈長を持つ個々のタンパク質に基づいて訓練されたトランスフォーマーアーキテクチャに基づいている。
そこで我々は,選択的構造化状態空間モデルから構築した代替のタンパク質LMアーキテクチャであるBiMamba-Sに基づくLC-PLMを提案する。
また、第2段階のトレーニングのために、タンパク質-タンパク質相互作用グラフの文脈化を行うLC-PLM-Gも導入した。
論文 参考訳(メタデータ) (2024-10-29T16:43:28Z) - MAMMAL -- Molecular Aligned Multi-Modal Architecture and Language [0.24434823694833652]
MAMMALは、大規模生物学的データセットから学習する多目的マルチタスク基盤モデルである。
我々は、幅広い分類、回帰、生成タスクをサポートするプロンプト構文を導入する。
典型的薬物発見パイプライン内の異なるステップにまたがる11種類の下流タスクのモデルを評価した。
論文 参考訳(メタデータ) (2024-10-28T20:45:52Z) - Structure Language Models for Protein Conformation Generation [66.42864253026053]
伝統的な物理学に基づくシミュレーション手法は、しばしばサンプリング平衡整合に苦しむ。
深い生成モデルは、より効率的な代替としてタンパク質のコンホメーションを生成することを約束している。
本稿では,効率的なタンパク質コンホメーション生成のための新しいフレームワークとして構造言語モデリングを紹介する。
論文 参考訳(メタデータ) (2024-10-24T03:38:51Z) - Unifying Sequences, Structures, and Descriptions for Any-to-Any Protein Generation with the Large Multimodal Model HelixProtX [14.927425008686692]
我々は,大規模マルチモーダルモデル上に構築されたHelixProtXを導入し,タンパク質の任意のモダリティ生成をサポートする。
HelixProtXは、さまざまなタンパク質関連のタスクにおいて、常に優れた精度を達成し、既存の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2024-07-12T14:03:02Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Target-aware Variational Auto-encoders for Ligand Generation with
Multimodal Protein Representation Learning [2.01243755755303]
ターゲット認識型自動エンコーダであるTargetVAEを導入し、任意のタンパク質標的に対する高い結合親和性で生成する。
これは、タンパク質の異なる表現を単一のモデルに統一する最初の試みであり、これは我々がタンパク質マルチモーダルネットワーク(PMN)と呼ぶ。
論文 参考訳(メタデータ) (2023-08-02T12:08:17Z) - Prot2Text: Multimodal Protein's Function Generation with GNNs and Transformers [18.498779242323582]
本稿では,タンパク質の機能を自由テキスト形式で予測する新しいアプローチであるProt2Textを提案する。
エンコーダ・デコーダフレームワークでグラフニューラルネットワーク(GNN)とLarge Language Models(LLM)を組み合わせることにより,本モデルは多種多様なデータ型を効果的に統合する。
論文 参考訳(メタデータ) (2023-07-25T09:35:43Z) - A Latent Diffusion Model for Protein Structure Generation [50.74232632854264]
本稿では,タンパク質モデリングの複雑さを低減できる潜在拡散モデルを提案する。
提案手法は, 高い設計性と効率性を有する新規なタンパク質のバックボーン構造を効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-05-06T19:10:19Z) - PEER: A Comprehensive and Multi-Task Benchmark for Protein Sequence
Understanding [17.770721291090258]
PEERは、Protein sEquence undERstandingの包括的なマルチタスクベンチマークである。
タンパク質機能予測、タンパク質局在予測、タンパク質構造予測、タンパク質-リガンド相互作用予測を含む、多様なタンパク質理解タスクのセットを提供する。
我々は,従来の特徴工学的手法,異なる配列符号化手法,および大規模事前学習されたタンパク質言語モデルなど,各タスクに対するシーケンスベース手法の評価を行った。
論文 参考訳(メタデータ) (2022-06-05T05:21:56Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。