論文の概要: PLM-eXplain: Divide and Conquer the Protein Embedding Space
- arxiv url: http://arxiv.org/abs/2504.07156v1
- Date: Wed, 09 Apr 2025 10:46:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:22:05.576761
- Title: PLM-eXplain: Divide and Conquer the Protein Embedding Space
- Title(参考訳): PLM-eXplain: タンパク質の埋め込み空間の分割とコンカマー
- Authors: Jan van Eck, Dea Gogishvili, Wilson Silva, Sanne Abeln,
- Abstract要約: PLM-eXplain (PLM-X)について説明する。
PLM-Xは、PLM埋め込みを2つの構成要素に分解することでギャップを埋める: 確立された生化学的特徴に基づく解釈可能な部分空間と、モデルの予測力を保存する残留部分空間である。
3つのタンパク質レベルの分類課題にまたがるアプローチの有効性を実証する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Protein language models (PLMs) have revolutionised computational biology through their ability to generate powerful sequence representations for diverse prediction tasks. However, their black-box nature limits biological interpretation and translation to actionable insights. We present an explainable adapter layer - PLM-eXplain (PLM-X), that bridges this gap by factoring PLM embeddings into two components: an interpretable subspace based on established biochemical features, and a residual subspace that preserves the model's predictive power. Using embeddings from ESM2, our adapter incorporates well-established properties, including secondary structure and hydropathy while maintaining high performance. We demonstrate the effectiveness of our approach across three protein-level classification tasks: prediction of extracellular vesicle association, identification of transmembrane helices, and prediction of aggregation propensity. PLM-X enables biological interpretation of model decisions without sacrificing accuracy, offering a generalisable solution for enhancing PLM interpretability across various downstream applications. This work addresses a critical need in computational biology by providing a bridge between powerful deep learning models and actionable biological insights.
- Abstract(参考訳): タンパク質言語モデル(PLM)は、様々な予測タスクのための強力なシーケンス表現を生成する能力を通じて、計算生物学に革命をもたらした。
しかしながら、ブラックボックスの性質は生物学的解釈と行動可能な洞察への翻訳を制限している。
本稿では,PLM-eXplain (PLM-X) とPLM-eXplain (PLM-X) の2つの要素にPLMの埋め込みを分解し,このギャップを埋めるアダプタ層について述べる。
ESM2からの埋め込みを用いて,高性能を維持しつつ,二次構造や疎水性などの良好な特性を取り入れたアダプタを開発した。
本研究は,細胞外ベシクル結合の予測,膜貫通ヘリックスの同定,凝集確率の予測という,タンパク質レベルの3つのタスクにまたがるアプローチの有効性を実証する。
PLM-Xは精度を犠牲にすることなく、モデル決定の生物学的解釈を可能にし、様々な下流アプリケーションでPLMの解釈可能性を高めるための一般的なソリューションを提供する。
この研究は、強力なディープラーニングモデルと実行可能な生物学的洞察の間の橋渡しを提供することによって、計算生物学における重要なニーズに対処する。
関連論文リスト
- GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Biology Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models [51.316001071698224]
本稿では,生物配列関連命令チューニングデータセットであるBiology-Instructionsを紹介する。
このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンスに関連するタスクのギャップを埋めることができます。
また、新たな3段階トレーニングパイプラインを備えたChatMultiOmicsという強力なベースラインも開発しています。
論文 参考訳(メタデータ) (2024-12-26T12:12:23Z) - Long-context Protein Language Modeling Using Bidirectional Mamba with Shared Projection Layers [76.95505296417866]
言語モデル(LM)の自己教師による訓練は、有意義な表現の学習や創薬設計において、タンパク質配列に大きな成功を収めている。
ほとんどのタンパク質LMは、短い文脈長を持つ個々のタンパク質に基づいて訓練されたトランスフォーマーアーキテクチャに基づいている。
そこで本研究では,選択的構造化状態空間モデルに基づく代替タンパク質であるBiMamba-Sに基づくLC-PLMを提案する。
論文 参考訳(メタデータ) (2024-10-29T16:43:28Z) - DPLM-2: A Multimodal Diffusion Protein Language Model [75.98083311705182]
DPLM-2は, 離散拡散タンパク質言語モデル(DPLM)を拡張し, 配列と構造の両方に適合する多モーダルタンパク質基盤モデルである。
DPLM-2は、配列と構造、およびその限界と条件の結合分布を学習する。
実験によりDPLM-2は高度に互換性のあるアミノ酸配列とそれに対応する3D構造を同時に生成できることが示された。
論文 参考訳(メタデータ) (2024-10-17T17:20:24Z) - Diffusion Language Models Are Versatile Protein Learners [75.98083311705182]
本稿では,タンパク質配列の強い生成および予測能力を示す多目的なタンパク質言語モデルである拡散タンパク質言語モデル(DPLM)を紹介する。
まず, 自己制御型離散拡散確率フレームワークを用いて, 進化的タンパク質配列からのスケーラブルDPLMの事前学習を行った。
プレトレーニング後、DPLMは非条件生成のための構造的に可塑性で新規で多様なタンパク質配列を生成する能力を示す。
論文 参考訳(メタデータ) (2024-02-28T18:57:56Z) - Molecule Design by Latent Prompt Transformer [76.2112075557233]
本研究は、分子設計の課題を条件付き生成モデリングタスクとしてフレーミングすることによって検討する。
本研究では,(1)学習可能な事前分布を持つ潜伏ベクトル,(2)プロンプトとして潜伏ベクトルを用いる因果トランスフォーマーに基づく分子生成モデル,(3)潜在プロンプトを用いた分子の目標特性および/または制約値を予測する特性予測モデルからなる新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2024-02-27T03:33:23Z) - X-LoRA: Mixture of Low-Rank Adapter Experts, a Flexible Framework for Large Language Models with Applications in Protein Mechanics and Molecular Design [0.0]
低ランク適応(LoRA)に基づくディープ・レイヤ・ワイド・トークン・レベル・アプローチを用いて、微調整された大規模言語モデルを作成するための専門家戦略の混合を報告する。
このデザインは、ニューラルネットワーク構築ブロックをさまざまな階層的な表現で再利用する、普遍性と多様性の生物学的原則にインスパイアされている。
我々は, バイオマテリアル分析, タンパク質力学, 設計に焦点をあてた, フォワード/逆解析タスク, 推論能力の強化など, 科学的能力を提供するX-LoRAモデルを開発した。
論文 参考訳(メタデータ) (2024-02-11T10:23:34Z) - Interface-Driven Peptide Folding: Quantum Computations on Simulated
Membrane Surfaces [0.0]
本研究では、既存の量子コンピューティングアルゴリズムを拡張し、界面における抗菌ペプチド相互作用の複雑さに対処する。
われわれの手法では、同質なメディアのシミュレーションに比べてより多くの量子ビットを必要としておらず、現在の量子コンピューティング資源でより実現可能である。
論文 参考訳(メタデータ) (2024-01-10T11:18:19Z) - Modeling Dense Multimodal Interactions Between Biological Pathways and Histology for Survival Prediction [3.2274401541163322]
本稿では,パスとヒストロジーパッチトークン間の相互作用をモデル化できるメモリ効率の良いマルチモーダルトランスを提案する。
提案モデルであるSURVPATHは,非モーダルベースラインとマルチモーダルベースラインの両方に対して評価した場合に,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-04-13T21:02:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。