論文の概要: A Novel Framework for Multi-Modal Protein Representation Learning
- arxiv url: http://arxiv.org/abs/2510.23273v1
- Date: Mon, 27 Oct 2025 12:33:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.547849
- Title: A Novel Framework for Multi-Modal Protein Representation Learning
- Title(参考訳): マルチモーダルタンパク質表現学習のための新しいフレームワーク
- Authors: Runjie Zheng, Zhen Wang, Anjie Qiao, Jiancong Xie, Jiahua Rao, Yuedong Yang,
- Abstract要約: 2つのコア機構に対処する統合フレームワークであるDAMPE(Diffused and Aligned Multi-modal Protein Embedding)を提案する。
まず、異なるモードの内在的な埋め込み空間間の対応性を確立するための最適輸送(OT)に基づく表現アライメントを提案する。
次に,条件付きグラフ生成(CGG)に基づく情報融合手法を開発した。
- 参考スコア(独自算出の注目度): 13.33566214386641
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate protein function prediction requires integrating heterogeneous intrinsic signals (e.g., sequence and structure) with noisy extrinsic contexts (e.g., protein-protein interactions and GO term annotations). However, two key challenges hinder effective fusion: (i) cross-modal distributional mismatch among embeddings produced by pre-trained intrinsic encoders, and (ii) noisy relational graphs of extrinsic data that degrade GNN-based information aggregation. We propose Diffused and Aligned Multi-modal Protein Embedding (DAMPE), a unified framework that addresses these through two core mechanisms. First, we propose Optimal Transport (OT)-based representation alignment that establishes correspondence between intrinsic embedding spaces of different modalities, effectively mitigating cross-modal heterogeneity. Second, we develop a Conditional Graph Generation (CGG)-based information fusion method, where a condition encoder fuses the aligned intrinsic embeddings to provide informative cues for graph reconstruction. Meanwhile, our theoretical analysis implies that the CGG objective drives this condition encoder to absorb graph-aware knowledge into its produced protein representations. Empirically, DAMPE outperforms or matches state-of-the-art methods such as DPFunc on standard GO benchmarks, achieving AUPR gains of 0.002-0.013 pp and Fmax gains 0.004-0.007 pp. Ablation studies further show that OT-based alignment contributes 0.043-0.064 pp AUPR, while CGG-based fusion adds 0.005-0.111 pp Fmax. Overall, DAMPE offers a scalable and theoretically grounded approach for robust multi-modal protein representation learning, substantially enhancing protein function prediction.
- Abstract(参考訳): 正確なタンパク質機能の予測には、不均一な内在的信号(例えば、配列と構造)とノイズのある外在的コンテキスト(例えば、タンパク質-タンパク質相互作用とGO用語アノテーション)を統合する必要がある。
しかし、2つの重要な課題は、効果的な融合を妨げている。
一 事前訓練した内在エンコーダによる埋込物間の交互分布ミスマッチ及び
(II)GNNに基づく情報集約を劣化させる外部データのノイズリレーショナルグラフ。
DAMPE(Diffused and Aligned Multi-modal Protein Embedding)は、2つのコアメカニズムを通じてこれらに対処する統合フレームワークである。
まず、異なるモードの内在的な埋め込み空間間の対応性を確立するための最適輸送(OT)に基づく表現アライメントを提案し、効果的にクロスモーダルな不均一性を緩和する。
次に,条件付きグラフ生成(CGG)に基づく情報融合手法を開発した。
一方,我々の理論的分析は,CGGの目的がこの条件エンコーダを駆動し,グラフ認識知識をその生成したタンパク質表現に吸収することを示唆している。
DAMPEは、標準のGOベンチマークでDPFuncのような最先端の手法よりも優れ、AUPRの0.002-0.013pp、Fmaxの0.004-0.007ppを達成している。
アブレーション研究により、OTベースのアライメントは0.043-0.064pp AUPRに寄与し、CGGベースの融合は0.005-0.111pp Fmaxに増加することが示されている。
全体として、DAMPEは、堅牢なマルチモーダルタンパク質表現学習のためのスケーラブルで理論的に基礎的なアプローチを提供し、タンパク質機能予測を大幅に強化する。
関連論文リスト
- ProteinAE: Protein Diffusion Autoencoders for Structure Encoding [64.77182442408254]
本稿では,新規かつ合理化されたタンパク質拡散オートエンコーダであるProteinAEを紹介する。
プロテインAEは、タンパク質のバックボーン座標を直接E(3)から連続的でコンパクトな潜在空間にマッピングする。
本研究では,既存のオートエンコーダよりも優れた,最先端の再構築品質を実現することを実証する。
論文 参考訳(メタデータ) (2025-10-12T14:30:32Z) - PRING: Rethinking Protein-Protein Interaction Prediction from Pairs to Graphs [88.98041407783502]
PRINGは、タンパク質とタンパク質の相互作用予測をグラフレベルで評価する最初のベンチマークである。
PRINGは、21,484タンパク質と186,818の相互作用からなる高品質な多種PPIネットワークデータセットをキュレートする。
論文 参考訳(メタデータ) (2025-07-07T15:21:05Z) - Hierarchical Multi-Label Contrastive Learning for Protein-Protein Interaction Prediction Across Organisms [2.399426243085768]
タンパク質間相互作用予測のための階層的コントラストフレームワークであるHIPPOを提案する。
提案手法は、タンパク質の機能クラス間の構造的関係をエミュレートする階層的コントラスト損失関数を含む。
ベンチマークデータセットの実験では、HIPPOが最先端のパフォーマンスを達成し、既存のメソッドを上回り、低データのレシエーションにおいて堅牢性を示すことが示されている。
論文 参考訳(メタデータ) (2025-07-03T15:41:04Z) - KEPLA: A Knowledge-Enhanced Deep Learning Framework for Accurate Protein-Ligand Binding Affinity Prediction [60.23701115249195]
KEPLAは、遺伝子オントロジーとリガンド特性の事前知識を統合し、予測性能を向上させる新しいディープラーニングフレームワークである。
2つのベンチマークデータセットの実験では、KEPLAは一貫して最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-06-16T08:02:42Z) - Bidirectional Hierarchical Protein Multi-Modal Representation Learning [4.682021474006426]
大規模タンパク質配列で事前訓練されたタンパク質言語モデル(pLM)は、配列ベースタスクにおいて大きな成功を収めた。
3次元構造情報を活用するために設計されたグラフニューラルネットワーク(GNN)は、タンパク質関連予測タスクにおいて有望な一般化を示している。
本稿では、よりリッチで包括的なタンパク質表現を捉えるために、双方向かつ階層的な(双階層的な)融合アプローチを提案する。
論文 参考訳(メタデータ) (2025-04-07T06:47:49Z) - Diffusion Model with Representation Alignment for Protein Inverse Folding [53.139837825588614]
タンパク質逆フォールディングはバイオインフォマティクスの基本的な問題であり、与えられたタンパク質のバックボーン構造からアミノ酸配列を復元することを目的としている。
表現アライメント(DMRA)を用いた拡散モデルを用いた新しい手法を提案する。
実験では,CATH4.2データセットを広範囲に評価し,DMRAが先行手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-12-12T15:47:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。