論文の概要: ProtSent: Protein Sentence Transformers
- arxiv url: http://arxiv.org/abs/2605.06830v1
- Date: Thu, 07 May 2026 18:33:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.545449
- Title: ProtSent: Protein Sentence Transformers
- Title(参考訳): ProtSent: タンパク質文変換器
- Authors: Dan Ofer, Oriel Perets, Michal Linial, Nadav Rappoport,
- Abstract要約: タンパク質言語モデル (pLM) は、進化的および構造的情報をキャプチャする残基ごとの表現を生成する。
本稿では、PLMを汎用埋め込みモデルに適応させるための対照的な微調整フレームワークであるProtSent(ProtSent)を提案する。
- 参考スコア(独自算出の注目度): 6.657830371527077
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Protein language models (pLMs) produce per-residue representations that capture evolutionary and structural information, yet their mean-pooled sequence embeddings are not explicitly trained to reflect functional, evolutionary or structural similarity between proteins. We present Protein Sentence Transformers (ProtSent), a contrastive fine-tuning framework for adapting PLMs into general-purpose embedding models. ProtSent trains with MultipleNegativesRankingLoss across five protein-pair datasets: Pfam families, structurally derived hard negatives, AlphaFold DB structural pairs, and StringDB protein--protein interactions, and Deep Mutational Scanning data. We evaluate on 23~downstream tasks using frozen embeddings with a k-nearest-neighbor probe to measure embedding neighborhood quality. On ESM-2 150M, ProtSent improves 15 of 23 tasks, with gains of +105% on remote homology detection, +17% on variant effect prediction, and +19.9% Recall@1 on SCOPe-40 structural retrieval. The 35M variant improves 16 of 23 tasks with +40.5% on remote homology and +15.5% Recall@1 on SCOPe-40. Contrastive fine-tuning restructures the embedding space to better capture protein function and structure, without any task-specific supervision. We release the models, public data, and training recipe and code.
- Abstract(参考訳): タンパク質言語モデル(pLM)は、進化的および構造的な情報をキャプチャする残基ごとの表現を生成するが、それらの平均プール配列の埋め込みは、タンパク質間の機能的、進化的、構造的類似性を反映するように明示的に訓練されていない。
本稿では、PLMを汎用埋め込みモデルに適応させるための対照的な微調整フレームワークであるProtSent(ProtSent)を提案する。
Pfam family, structurely derived hard negatives, AlphaFold DB structure pairs, StringDB protein- protein interaction, Deep Mutational Scanning dataの5つのデータセットにまたがるProtSent Train。
我々は,k-nearest-neighbor プローブを用いた冷凍埋込装置を用いて,23~ダウンストリームタスクの評価を行い,埋込近傍の質を測定した。
ESM-2 150Mでは、ProtSentは23タスクのうち15タスクを改善し、リモートホモロジー検出では+105%、可変効果予測では+17%、SCOPe-40構造検索では+19.9%のRecall@1が得られた。
35Mは23タスクのうち16タスクを改善し、リモートホモロジーでは+40.5%、SCOPe-40では+15.5% Recall@1である。
対照的に微調整は、特定のタスクを監督することなく、タンパク質の機能や構造をよりよく捉えるために埋め込み空間を再構築する。
モデル、公開データ、トレーニングのレシピとコードをリリースします。
関連論文リスト
- Rank-and-Reason: Multi-Agent Collaboration Accelerates Zero-Shot Protein Mutation Prediction [20.82228986381723]
ウェットラブ検証プロセスを自動化する2段階のエージェントフレームワークであるRan-and-Reason(VenusRAR)を提案する。
Rank-Stageでは、計算専門家と仮想生物学者がコンテキスト対応のマルチモーダルアンサンブルをまとめ、ProteinGym上で0.551(vs.0.518)の新しいスピアマン相関記録を樹立した。
Reason-Stageでは、エージェント専門家パネルが、幾何学的および構造的制約に対して候補を監査するチェーン・オブ・シンキングを採用し、ProteinGym-DMS99で最高5ヒット率を最大367%改善している。
論文 参考訳(メタデータ) (2026-01-30T10:35:46Z) - S$^2$Drug: Bridging Protein Sequence and 3D Structure in Contrastive Representation Learning for Virtual Screening [72.89086338778098]
タンパク質リガンドコントラスト表現学習のための2段階フレームワークを提案する。
最初の段階では、ESM2ベースのバックボーンを用いて、ChemBLでタンパク質配列を事前訓練する。
第2段階では、残基レベルゲーティングモジュールを介して配列と構造情報を融合することでPDBBindを微調整する。
この補助的なタスクは、モデルを誘導し、タンパク質配列内の結合残基を正確に局在させ、それらの3次元空間配列をキャプチャする。
論文 参考訳(メタデータ) (2025-11-10T11:57:47Z) - ProteinAE: Protein Diffusion Autoencoders for Structure Encoding [64.77182442408254]
本稿では,新規かつ合理化されたタンパク質拡散オートエンコーダであるProteinAEを紹介する。
プロテインAEは、タンパク質のバックボーン座標を直接E(3)から連続的でコンパクトな潜在空間にマッピングする。
本研究では,既存のオートエンコーダよりも優れた,最先端の再構築品質を実現することを実証する。
論文 参考訳(メタデータ) (2025-10-12T14:30:32Z) - ProteinZero: Self-Improving Protein Generation via Online Reinforcement Learning [49.2607661375311]
本稿では,逆折り畳みモデルの計算的拡張性,自動化,継続的な自己改善を可能にする新しいフレームワークであるProteinZeroを提案する。
ProteinZeroは、タンパク質設計のすべての主要な指標において、既存の手法を大幅に上回っている。
特に、CATH-4.3上で実行されるRL全体は、報酬を含む3日以内に1つの8X GPUノードで実行できる。
論文 参考訳(メタデータ) (2025-06-09T06:08:59Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - On the Robustness of AlphaFold: A COVID-19 Case Study [16.564151738086434]
高い精度にもかかわらず、AlphaFoldはそのような堅牢性を示していないことを実証する。
これにより、予測されたタンパク質構造が信頼される範囲を検知し定量化することが困難になる。
論文 参考訳(メタデータ) (2023-01-10T17:31:39Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z) - Pre-training Protein Language Models with Label-Agnostic Binding Pairs
Enhances Performance in Downstream Tasks [1.452875650827562]
タンパク質配列の1%未満は構造的にも機能的にも注釈付けされている。
本稿では,結合タンパク質配列と非結合タンパク質配列を混合したRoBERTaモデルを提案する。
トランスフォーマーの注意機構は,タンパク質結合部位の発見に寄与することが示唆された。
論文 参考訳(メタデータ) (2020-12-05T17:37:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。