論文の概要: Protein Fold Classification at Scale: Benchmarking and Pretraining
- arxiv url: http://arxiv.org/abs/2605.18552v1
- Date: Mon, 18 May 2026 15:32:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.914171
- Title: Protein Fold Classification at Scale: Benchmarking and Pretraining
- Title(参考訳): タンパク質のスケール分類:ベンチマークと事前学習
- Authors: Dexiong Chen, Andrei Manolache, Mathias Niepert, Karsten Borgwardt,
- Abstract要約: Masked Invariant Autoencoders (MiAE)はタンパク質構造表現学習のための自己教師型フレームワークである。
MiAEはTEDBenchの監視対象と最先端のベースラインに優れています。
- 参考スコア(独自算出の注目度): 26.547016915751964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classifying protein topology is essential for deciphering biological function, but progress is held back by the lack of large-scale benchmarks that avoid duplicates and by models that do not scale well. We introduce TEDBench, a large-scale, non-redundant benchmark for protein fold classification constructed from the Encyclopedia of Domains (TED) and Foldseek-clustered AlphaFold structures. We show that on TEDBench, current protein representation learning methods either require very large models or fail to deliver strong performance. To address this challenge, we propose Masked Invariant Autoencoders (MiAE), a self-supervised framework for protein structure representation learning. MiAE uses an extremely high masking ratio of up to 90% with an $\mathrm{SE(3)}$-invariant encoder and a lightweight decoder that reconstructs backbone coordinates from the latent representation and mask tokens. MiAE scales well and outperforms supervised counterparts and state-of-the-art baselines on TEDBench, establishing a strong recipe for protein fold classification. To test transfer beyond AlphaFold structures, we further benchmark on a curated dataset from experimental structures of CATH v4.4. TEDBench is available at https://github.com/BorgwardtLab/TEDBench.
- Abstract(参考訳): タンパク質トポロジーの分類は生物学的機能の解読に不可欠であるが、重複を避ける大規模なベンチマークの欠如や、うまくスケールしないモデルによって進歩が妨げられている。
The Encyclopedia of Domains (TED) と Foldseek-clustered AlphaFold 構造から構築されたタンパク質折り畳み分類のための大規模で非冗長なベンチマークであるTEDBenchを紹介する。
TEDBenchでは、現在のタンパク質表現学習法は非常に大きなモデルを必要とするか、強い性能を達成できないかを示す。
この課題に対処するため,タンパク質構造表現学習のための自己教師型フレームワークであるMasked Invariant Autoencoders (MiAE)を提案する。
MiAEは最大90%のマスク比で、$\mathrm{SE(3)}$-invariant encoderと、潜在表現とマスクトークンからバックボーン座標を再構成する軽量デコーダを使用する。
MiAEはTEDBenchの教師付きコントラストと最先端のベースラインに優れており、タンパク質の折りたたみ分類の強力なレシピを確立している。
また、AlphaFold構造以外のデータ転送をテストするために、CATH v4.4の実験構造から得られたデータセットを更にベンチマークする。
TEDBenchはhttps://github.com/BorgwardtLab/TEDBench.comで入手できる。
関連論文リスト
- S$^2$Drug: Bridging Protein Sequence and 3D Structure in Contrastive Representation Learning for Virtual Screening [72.89086338778098]
タンパク質リガンドコントラスト表現学習のための2段階フレームワークを提案する。
最初の段階では、ESM2ベースのバックボーンを用いて、ChemBLでタンパク質配列を事前訓練する。
第2段階では、残基レベルゲーティングモジュールを介して配列と構造情報を融合することでPDBBindを微調整する。
この補助的なタスクは、モデルを誘導し、タンパク質配列内の結合残基を正確に局在させ、それらの3次元空間配列をキャプチャする。
論文 参考訳(メタデータ) (2025-11-10T11:57:47Z) - ProteinAE: Protein Diffusion Autoencoders for Structure Encoding [64.77182442408254]
本稿では,新規かつ合理化されたタンパク質拡散オートエンコーダであるProteinAEを紹介する。
プロテインAEは、タンパク質のバックボーン座標を直接E(3)から連続的でコンパクトな潜在空間にマッピングする。
本研究では,既存のオートエンコーダよりも優れた,最先端の再構築品質を実現することを実証する。
論文 参考訳(メタデータ) (2025-10-12T14:30:32Z) - Aligning Proteins and Language: A Foundation Model for Protein Retrieval [30.32156711268032]
本稿では,大規模タンパク質データセットから類似した構造と意味を持つタンパク質を検索することを目的とする。
近年のビジョンキャプチャーモデル (VLM) の進歩により, 3次元タンパク質構造と機能アノテーションを協調するCLIPスタイルのフレームワークが提案されている。
論文 参考訳(メタデータ) (2025-05-27T08:13:08Z) - Protein Structure Tokenization: Benchmarking and New Recipe [16.842453216446987]
StructTokenBenchは、構造トークン化器の品質と効率を包括的に評価するフレームワークである。
AminoAseedは、コードブックの更新を強化し、コードブックのサイズと寸法を最適にバランスさせ、トークン化ツールの利用と品質を改善する戦略である。
本手法は,24タスクに対して平均6.31%の性能向上を実現し,感度と利用率をそれぞれ12.83%,124.03%向上させた。
論文 参考訳(メタデータ) (2025-02-28T15:14:33Z) - Evaluating representation learning on the protein structure universe [19.856785982914243]
ProteinWorkshopは、Graph Neural Networksでタンパク質構造の表現学習を行うためのベンチマークスイートである。
本研究は,実験と予測の両方における大規模事前学習および下流作業について考察する。
1)AlphaFold構造と補助タスクの大規模事前学習は、回転不変および同変GNNの性能を一貫して改善する。
論文 参考訳(メタデータ) (2024-06-19T21:48:34Z) - PDB-Struct: A Comprehensive Benchmark for Structure-based Protein Design [19.324059406159325]
我々は、リフォールダビリティベースのメトリクスと安定性ベースのメトリクスの2つの新しい指標を紹介した。
ByProt、ProteinMPNN、ESM-IFはベンチマークで非常によく機能しますが、ESM-DesignとAF-Designは不足しています。
提案するベンチマークは,タンパク質設計手法の公平かつ包括的な評価方法である。
論文 参考訳(メタデータ) (2023-11-30T02:37:55Z) - High-level Feature Guided Decoding for Semantic Segmentation [54.424062794490254]
そこで本稿では,アップサンプラーが頑健な結果を得るためのガイダンス(HFG)として,強力な事前学習高レベル機能を提案する。
具体的には、バックボーンの高レベルな機能はクラストークンのトレーニングに使用され、クラストークンはクラス分類のためにアップサンプラーによって再利用される。
HFGの上限を押し上げるために、低解像度の高レベル特徴に対して効率よく効果的に操作できる文脈拡張エンコーダ(CAE)を導入する。
論文 参考訳(メタデータ) (2023-03-15T14:23:07Z) - A Systematic Study of Joint Representation Learning on Protein Sequences
and Structures [38.94729758958265]
効果的なタンパク質表現の学習は、タンパク質機能の予測のような生物学の様々なタスクにおいて重要である。
近年, タンパク質言語モデル(PLM)に基づく配列表現学習法は, 配列ベースタスクでは優れているが, タンパク質構造に関わるタスクへの直接適応は依然として困難である。
本研究は、最先端のPLMと異なる構造エンコーダを統合することで、結合タンパク質表現学習の包括的研究を行う。
論文 参考訳(メタデータ) (2023-03-11T01:24:10Z) - Neural Collapse Inspired Feature-Classifier Alignment for Few-Shot Class
Incremental Learning [120.53458753007851]
FSCIL(Few-shot class-incremental Learning)は、新しいセッションにおいて、新しいクラスごとにいくつかのトレーニングサンプルしかアクセスできないため、難しい問題である。
我々は最近発見された神経崩壊現象にインスパイアされたFSCILのこの不整合ジレンマに対処する。
我々は、FSCILのための神経崩壊誘発フレームワークを提案する。MiniImageNet、CUB-200、CIFAR-100データセットの実験により、提案したフレームワークが最先端のパフォーマンスより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-06T18:39:40Z) - HelixFold-Single: MSA-free Protein Structure Prediction by Using Protein
Language Model as an Alternative [61.984700682903096]
HelixFold-Singleは、大規模なタンパク質言語モデルとAlphaFold2の優れた幾何学的学習能力を組み合わせるために提案されている。
提案手法は,数千万の一次配列を持つ大規模タンパク質言語モデルを事前学習する。
我々は、一次系列のみから原子の3次元座標を予測するために、エンドツーエンドの微分可能なモデルを得る。
論文 参考訳(メタデータ) (2022-07-28T07:30:33Z) - Do We Really Need a Learnable Classifier at the End of Deep Neural
Network? [118.18554882199676]
本研究では、ニューラルネットワークを学習して分類器をランダムにETFとして分類し、訓練中に固定する可能性について検討する。
実験結果から,バランスの取れたデータセットの画像分類において,同様の性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-17T04:34:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。