論文の概要: Bidirectional Hierarchical Protein Multi-Modal Representation Learning
- arxiv url: http://arxiv.org/abs/2504.04770v2
- Date: Sun, 10 Aug 2025 13:27:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 16:55:52.369658
- Title: Bidirectional Hierarchical Protein Multi-Modal Representation Learning
- Title(参考訳): 双方向階層型タンパク質多型表現学習
- Authors: Xuefeng Liu, Songhao Jiang, Chih-chan Tien, Jinbo Xu, Rick Stevens,
- Abstract要約: 大規模タンパク質配列で事前訓練されたタンパク質言語モデル(pLM)は、配列ベースタスクにおいて大きな成功を収めた。
3次元構造情報を活用するために設計されたグラフニューラルネットワーク(GNN)は、タンパク質関連予測タスクにおいて有望な一般化を示している。
本稿では、よりリッチで包括的なタンパク質表現を捉えるために、双方向かつ階層的な(双階層的な)融合アプローチを提案する。
- 参考スコア(独自算出の注目度): 4.682021474006426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Protein representation learning is critical for numerous biological tasks. Recently, large transformer-based protein language models (pLMs) pretrained on large scale protein sequences have demonstrated significant success in sequence-based tasks. However, pLMs lack structural context. Conversely, graph neural networks (GNNs) designed to leverage 3D structural information have shown promising generalization in protein-related prediction tasks, but their effectiveness is often constrained by the scarcity of labeled structural data. Recognizing that sequence and structural representations are complementary perspectives of the same protein entity, we propose a multimodal bidirectional hierarchical fusion framework to effectively merge these modalities. Our framework employs attention and gating mechanisms to enable effective interaction between pLMs-generated sequential representations and GNN-extracted structural features, improving information exchange and enhancement across layers of the neural network. This bidirectional and hierarchical (Bi-Hierarchical) fusion approach leverages the strengths of both modalities to capture richer and more comprehensive protein representations. Based on the framework, we further introduce local Bi-Hierarchical Fusion with gating and global Bi-Hierarchical Fusion with multihead self-attention approaches. Our method demonstrates consistent improvements over strong baselines and existing fusion techniques in a variety of protein representation learning benchmarks, including enzyme EC classification, model quality assessment, protein-ligand binding affinity prediction, protein-protein binding site prediction, and B cell epitopes prediction. Our method establishes a new state-of-the-art for multimodal protein representation learning, emphasizing the efficacy of Bi-Hierarchical Fusion in bridging sequence and structural modalities.
- Abstract(参考訳): タンパク質表現学習は多くの生物学的タスクに欠かせない。
近年、大規模タンパク質配列で事前訓練された大きなトランスフォーマーベースタンパク質言語モデル (pLM) は、配列ベースタスクにおいて大きな成功を収めている。
しかし、pLMは構造的な文脈を欠いている。
逆に、3次元構造情報を活用するように設計されたグラフニューラルネットワーク(GNN)は、タンパク質関連予測タスクにおいて有望な一般化を示しているが、ラベル付き構造データの不足によってその効果が制限されることがしばしばある。
配列と構造的表現が同じタンパク質実体の相補的な視点であることを認識し、これらのモダリティを効果的にマージするための多モード双方向階層的融合フレームワークを提案する。
本フレームワークでは,PLMの生成するシーケンシャル表現とGNNの抽出した構造特徴との効果的な相互作用を実現するため,注目とゲーティングの機構を用いて,ニューラルネットワークの層間の情報交換と強化を行う。
この双方向的および階層的(双階層的)融合アプローチは、両方のモダリティの強さを利用してよりリッチで包括的なタンパク質表現を捉える。
この枠組みに基づき、ゲーティングによる局所的双階層的融合と、マルチヘッド自己認識によるグローバルな双階層的融合をさらに導入する。
本手法は,酵素EC分類,モデル品質評価,タンパク質-リガンド結合親和性予測,タンパク質-タンパク質結合部位予測,B細胞エピトープ予測など,多種多様なタンパク質表現学習ベンチマークにおいて,強塩基性および既存の融合技術に対する一貫した改善を示す。
本手法は, 分岐配列と構造モダリティにおける二階層核融合の有効性を強調し, マルチモーダルタンパク質表現学習のための新しい最先端技術を確立する。
関連論文リスト
- Hierarchical Multi-Label Contrastive Learning for Protein-Protein Interaction Prediction Across Organisms [2.399426243085768]
タンパク質間相互作用予測のための階層的コントラストフレームワークであるHIPPOを提案する。
提案手法は、タンパク質の機能クラス間の構造的関係をエミュレートする階層的コントラスト損失関数を含む。
ベンチマークデータセットの実験では、HIPPOが最先端のパフォーマンスを達成し、既存のメソッドを上回り、低データのレシエーションにおいて堅牢性を示すことが示されている。
論文 参考訳(メタデータ) (2025-07-03T15:41:04Z) - Beyond Simple Concatenation: Fairly Assessing PLM Architectures for Multi-Chain Protein-Protein Interactions Prediction [0.2509487459755192]
タンパク質とタンパク質の相互作用 (PPIs) は、多くの細胞プロセスの基礎である。
PLMはタンパク質の構造と機能を予測するのに顕著な成功を収めた。
シークエンスベースのPPI結合親和性予測への応用は、いまだに未検討である。
論文 参考訳(メタデータ) (2025-05-26T14:23:08Z) - Structure-Aligned Protein Language Model [42.03167740260325]
膨大なタンパク質配列データベース上で事前訓練されたタンパク質言語モデル (pLM) は、下流の様々なタスクで優れているが、多くの生物学的応用に必要な構造的知識は欠如している。
我々は、事前学習されたタンパク質グラフニューラルネットワーク(pGNN)から、潜在レベルのコントラスト学習タスクを通じて、pLMに構造的洞察を統合する。
この課題は、pLMの残基を複数のタンパク質にまたがるpGNNの残基と整合させ、タンパク質間構造知識でpLMを豊かにする。
論文 参考訳(メタデータ) (2025-05-22T16:56:12Z) - Joint Masked Reconstruction and Contrastive Learning for Mining Interactions Between Proteins [4.254824555546419]
タンパク質とタンパク質の相互作用 (PPI) の予測は、細胞操作の基礎となるメカニズムを解明するための手段である。
本稿では,JmcPPIと呼ばれるマスク型再構成とコントラスト学習を組み合わせた新しいPPI予測手法を提案する。
3つの広く利用されているPPIデータセットに対して行われた大規模な実験は、JmcPPIが既存の最適なベースラインモデルを上回ることを示した。
論文 参考訳(メタデータ) (2025-03-06T17:39:12Z) - SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - Structure-Enhanced Protein Instruction Tuning: Towards General-Purpose Protein Understanding [43.811432723460534]
本稿では,このギャップを埋めるために,構造強化タンパク質インストラクションチューニング(SEPIT)フレームワークを紹介する。
提案手法では, 構造的知識を付加するため, 構造的知識を付加し, これらの拡張された pLM を大規模言語モデル (LLM) に接続し, タンパク質の理解を創出する。
我々はこれまでで最大かつ最も包括的なタンパク質命令データセットを構築し、汎用タンパク質理解モデルの訓練と評価を可能にした。
論文 参考訳(メタデータ) (2024-10-04T16:02:50Z) - Protein Representation Learning by Capturing Protein Sequence-Structure-Function Relationship [12.11413472492417]
AMMAは3つのモダリティを統一表現空間に統合するために、統一されたマルチモーダルエンコーダを採用する。
AMMAは、配列の整った相互関係を示すタンパク質表現の学習に非常に効果的である。
論文 参考訳(メタデータ) (2024-04-29T05:42:29Z) - PSC-CPI: Multi-Scale Protein Sequence-Structure Contrasting for
Efficient and Generalizable Compound-Protein Interaction Prediction [63.50967073653953]
化合物-タンパク質相互作用予測は、合理的な薬物発見のための化合物-タンパク質相互作用のパターンと強度を予測することを目的としている。
既存のディープラーニングベースの手法では、タンパク質配列や構造が単一のモダリティしか利用していない。
CPI予測のためのマルチスケールタンパク質配列構造コントラストフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-13T03:51:10Z) - Progressive Multi-Modality Learning for Inverse Protein Folding [47.095862120116976]
マルチモーダルトランスファー学習を利用するMMDesignと呼ばれる新しいタンパク質設計パラダイムを提案する。
MMDesignは、事前訓練された構造モジュールと事前訓練されたコンテキストモジュールを組み合わせる最初のフレームワークである。
実験結果は、小さなデータセットでのみトレーニングした結果、MMDesignが様々な公開ベンチマークのベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-12-11T10:59:23Z) - A Systematic Study of Joint Representation Learning on Protein Sequences
and Structures [38.94729758958265]
効果的なタンパク質表現の学習は、タンパク質機能の予測のような生物学の様々なタスクにおいて重要である。
近年, タンパク質言語モデル(PLM)に基づく配列表現学習法は, 配列ベースタスクでは優れているが, タンパク質構造に関わるタスクへの直接適応は依然として困難である。
本研究は、最先端のPLMと異なる構造エンコーダを統合することで、結合タンパク質表現学習の包括的研究を行う。
論文 参考訳(メタデータ) (2023-03-11T01:24:10Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z) - PersGNN: Applying Topological Data Analysis and Geometric Deep Learning
to Structure-Based Protein Function Prediction [0.07340017786387766]
本研究では,タンパク質構造を分離し,タンパク質データバンク内のタンパク質の機能的アノテーションを作成する。
本稿では,グラフ表現学習とトポロジカルデータ解析を組み合わせた,エンドツーエンドのトレーニング可能なディープラーニングモデルPersGNNを提案する。
論文 参考訳(メタデータ) (2020-10-30T02:24:35Z) - BERTology Meets Biology: Interpreting Attention in Protein Language
Models [124.8966298974842]
注目レンズを用いたタンパク質トランスフォーマーモデルの解析方法を示す。
注意はタンパク質の折りたたみ構造を捉え、基礎となる配列では遠く離れているが、三次元構造では空間的に近接しているアミノ酸を接続する。
また、注意とタンパク質構造との相互作用を三次元的に可視化する。
論文 参考訳(メタデータ) (2020-06-26T21:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。