論文の概要: ProtAlign: Contrastive learning paradigm for Sequence and structure alignment
- arxiv url: http://arxiv.org/abs/2603.06722v1
- Date: Fri, 06 Mar 2026 00:36:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:12.983011
- Title: ProtAlign: Contrastive learning paradigm for Sequence and structure alignment
- Title(参考訳): ProtAlign:シーケンスと構造アライメントのためのコントラスト学習パラダイム
- Authors: Aditya Ranganath, Hasin Us Sami, Kowshik Thopalli, Bhavya Kailkhura, Wesam Sakla,
- Abstract要約: シーケンス構造を対照的にアライメントするフレームワークを導入する。
タンパク質がモジュール間で一貫して表現される共有埋め込み空間を学習する。
結果は、対照的な学習がタンパク質配列と構造の間の強力な橋渡しとなることを示した。
- 参考スコア(独自算出の注目度): 27.814501305991
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Protein language models often take into consideration the alignment between a protein sequence and its textual description. However, they do not take structural information into consideration. Traditional methods treat sequence and structure separately, limiting the ability to exploit the alignment between the structure and protein sequence embeddings. In this paper, we introduce a sequence structure contrastive alignment framework, which learns a shared embedding space where proteins are represented consistently across modalities. By training on large-scale pairs of sequences and experimentally resolved or predicted structures, the model maximizes agreement between matched sequence structure pairs while pushing apart unrelated pairs. This alignment enables cross-modal retrieval (e.g., finding structural neighbors given a sequence), improves downstream prediction tasks such as function annotation and stability estimation, and provides interpretable links between sequence variation and structural organization. Our results demonstrate that contrastive learning can serve as a powerful bridge between protein sequences and structures, offering a unified representation for understanding and engineering proteins.
- Abstract(参考訳): タンパク質言語モデルはしばしば、タンパク質配列とそのテキスト記述との整合性を考慮している。
しかし、構造的な情報を考慮に入れていない。
従来の方法では、配列と構造を別々に扱い、構造とタンパク質の配列の埋め込みのアライメントを利用する能力を制限する。
本稿では,タンパク質がモジュール間で一貫して表現される共有埋め込み空間を学習する配列構造コントラストアライメントフレームワークを提案する。
大規模なシーケンス対と実験的に解決または予測された構造をトレーニングすることにより、モデルは一致したシーケンス構造対間の一致を最大化し、無関係なペアを分割する。
このアライメントは、クロスモーダル検索(例えば、シーケンスに与えられた構造的隣人を見つける)を可能にし、関数アノテーションや安定性推定などの下流予測タスクを改善し、シーケンスの変動と構造的構造の間の解釈可能なリンクを提供する。
その結果、コントラスト学習はタンパク質配列と構造の間の強力なブリッジとして機能し、理解と工学的タンパク質の統一的な表現を提供することを示した。
関連論文リスト
- From Static Structures to Ensembles: Studying and Harnessing Protein Structure Tokenization [15.864659611818661]
タンパク質構造トークン化は、3D構造を離散的あるいはベクトル化された表現に変換する。
構造トークン化に関する最近の多くの研究にもかかわらず、基礎となる離散表現の性質はよく理解されていない。
構造予測のための言語モデルにおける構造トークンの有効利用は、リッチで訓練済みのシーケンス埋め込みを使うことに依存していることを示す。
論文 参考訳(メタデータ) (2025-11-13T07:58:24Z) - S$^2$Drug: Bridging Protein Sequence and 3D Structure in Contrastive Representation Learning for Virtual Screening [72.89086338778098]
タンパク質リガンドコントラスト表現学習のための2段階フレームワークを提案する。
最初の段階では、ESM2ベースのバックボーンを用いて、ChemBLでタンパク質配列を事前訓練する。
第2段階では、残基レベルゲーティングモジュールを介して配列と構造情報を融合することでPDBBindを微調整する。
この補助的なタスクは、モデルを誘導し、タンパク質配列内の結合残基を正確に局在させ、それらの3次元空間配列をキャプチャする。
論文 参考訳(メタデータ) (2025-11-10T11:57:47Z) - CPE-Pro: A Structure-Sensitive Deep Learning Method for Protein Representation and Origin Evaluation [7.161099050722313]
タンパク質構造評価用結晶対予測学習モデル(CPE-Pro)を開発した。
CPE-Proはタンパク質の構造情報を学習し、構造間の差異を捉え、4つのデータクラスの正確なトレーサビリティを実現する。
我々は Foldseek を用いてタンパク質構造を「構造配列」にエンコードし、タンパク質構造配列言語モデル SSLM を訓練した。
論文 参考訳(メタデータ) (2024-10-21T02:21:56Z) - DPLM-2: A Multimodal Diffusion Protein Language Model [75.98083311705182]
DPLM-2は, 離散拡散タンパク質言語モデル(DPLM)を拡張し, 配列と構造の両方に適合する多モーダルタンパク質基盤モデルである。
DPLM-2は、配列と構造、およびその限界と条件の結合分布を学習する。
実験によりDPLM-2は高度に互換性のあるアミノ酸配列とそれに対応する3D構造を同時に生成できることが示された。
論文 参考訳(メタデータ) (2024-10-17T17:20:24Z) - FoldToken: Learning Protein Language via Vector Quantization and Beyond [56.19308144551836]
タンパク質配列構造を離散シンボルとして表現するために textbfFoldTokenizer を導入する。
学習したシンボルを textbfFoldToken と呼び、FoldToken の配列が新しいタンパク質言語として機能する。
論文 参考訳(メタデータ) (2024-02-04T12:18:51Z) - Progressive Multi-Modality Learning for Inverse Protein Folding [47.095862120116976]
マルチモーダルトランスファー学習を利用するMMDesignと呼ばれる新しいタンパク質設計パラダイムを提案する。
MMDesignは、事前訓練された構造モジュールと事前訓練されたコンテキストモジュールを組み合わせる最初のフレームワークである。
実験結果は、小さなデータセットでのみトレーニングした結果、MMDesignが様々な公開ベンチマークのベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-12-11T10:59:23Z) - The divergence time of protein structures modelled by Markov matrices
and its relation to the divergence of sequences [14.676723972349567]
我々は,3次構造のばらつきのマルコフ時間を推定するために,100万組の構造を解析した。
100万組の構造を解析することにより、マルコフの発散時間と配列の関係を導出する。
本稿では,この課題によく使用されるニューラルネットワークアーキテクチャに対する二次構造予測において,競合性能を示す。
論文 参考訳(メタデータ) (2023-08-11T01:32:05Z) - Protein Sequence and Structure Co-Design with Equivariant Translation [19.816174223173494]
既存のアプローチは自己回帰モデルまたは拡散モデルを用いてタンパク質配列と構造の両方を生成する。
本稿では,タンパク質配列と構造共設計が可能な新しいアプローチを提案する。
我々のモデルは、幾何学的制約と文脈特徴からの相互作用を推論する三角法を意識したエンコーダで構成されている。
全てのタンパク質アミノ酸は翻訳工程で1ショットずつ更新され、推論プロセスが大幅に加速される。
論文 参考訳(メタデータ) (2022-10-17T06:00:12Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z) - Compositional Generalization Requires Compositional Parsers [69.77216620997305]
直近のCOGSコーパスにおける構成原理によって導かれるシーケンス・ツー・シーケンスモデルとモデルを比較した。
構造一般化は構成一般化の重要な尺度であり、複雑な構造を認識するモデルを必要とする。
論文 参考訳(メタデータ) (2022-02-24T07:36:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。