論文の概要: Atom-level Protein Representation Learning Improves Protein Structure Prediction
- arxiv url: http://arxiv.org/abs/2605.22133v2
- Date: Fri, 22 May 2026 08:18:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 14:44:53.770263
- Title: Atom-level Protein Representation Learning Improves Protein Structure Prediction
- Title(参考訳): Atomレベルタンパク質表現学習はタンパク質構造予測を改善する
- Authors: Taewon Kim, Hyosoon Jang, Hyunjin Seo, Seonghwan Seo, Hyeongwoo Kim, Wonho Zhung, Mingyeong Shin, Wooyoun Kim, Sungsoo Ahn,
- Abstract要約: TriProRepは、3つのアライメントされた残差レベルのビューを共同でモデル化する構造対応事前学習手法である。
TriProRepは、ジェネレータが破損したビューからオリジナルのトークンを復元する事前トレーニングによって、可視だが間違ったクロスビュー拡張を区別することを学ぶ。
RepSPは構造予測設定におけるタンパク質表現の評価のためのベンチマークである。
- 参考スコア(独自算出の注目度): 29.152983345284458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in generative modeling show that pretrained representations can improve generation as conditioning features or alignment targets. Motivated by this, we study protein representations for predicting structures beyond conventional function annotation. We propose TriProRep, a structure-aware pretraining method that jointly models three aligned residue-level views: amino-acid identity, backbone geometry, and local full-atom geometry, discretely encoded via VQ-VAE tokenizers. By pretraining to recover original tokens from generator-corrupted views, TriProRep learns to distinguish plausible but incorrect cross-view augmentations from the original protein. We further introduce RepSP, a benchmark for evaluating protein representations in structure-predictive settings. RepSP tests three uses of representations: homodimer co-folding from apo-chain representations, residue-level prediction of homodimer-derived interaction properties, and representation-aligned monomer structure prediction. Across these tasks, TriProRep improves over sequence-only and prior structure-aware representation models, while maintaining competitive performance on conventional benchmarks.
- Abstract(参考訳): 生成モデリングの最近の進歩は、事前学習された表現が条件付けの特徴やアライメントターゲットとして生成を改善することを示している。
そこで本研究では,従来の関数アノテーションを超える構造を予測するためのタンパク質表現について検討する。
本稿では, アミノ酸アイデンティティ, バックボーン幾何, 局所フル原子幾何という3つの配位残基レベルビューを, VQ-VAEトークンにより離散的に符号化した構造認識事前学習手法TriProRepを提案する。
TriProRepは、ジェネレータが破損したビューから元のトークンを復元する事前訓練を行うことで、オリジナルのタンパク質から可視だが間違ったクロスビュー拡張を識別することを学ぶ。
さらに、構造予測設定におけるタンパク質表現の評価ベンチマークであるRepSPについても紹介する。
RepSPは、アポ鎖表現からのホモ二量体共フォールディング、ホモ二量体由来の相互作用特性の残基レベルの予測、表現整列モノマー構造予測の3つの用途を試験した。
これらのタスク全体にわたって、TriProRepは、従来のベンチマーク上での競合性能を維持しながら、シーケンスのみおよび以前の構造対応表現モデルよりも改善されている。
関連論文リスト
- Scaling Atomistic Protein Binder Design with Generative Pretraining and Test-Time Compute [64.59043351161004]
両パラダイムを統一する新規な完全原子結合体生成法であるProteina-Complexaを提案する。
Proteina-Complexa は計算バインダー設計ベンチマークにおける新しい技術状態を設定する。
また, 界面水素結合最適化, フォールドクラス誘導結合体生成, 小分子ターゲットへの拡張, 酵素設計タスクについても述べる。
論文 参考訳(メタデータ) (2026-03-30T01:54:03Z) - Rigidity-Aware Geometric Pretraining for Protein Design and Conformational Ensembles [74.32932832937618]
我々は、微調整の前に幾何学学習を前もってロードする幾何学事前学習フレームワークであるtextbfRigidSSL$(textitRigidity-Aware Self-Supervised Learning$)を紹介した。
フェーズI(RigidSSL-Perturb)は、AlphaFoldタンパク質構造データベースから432K構造から、シミュレートされた摂動を持つ幾何学的先行を学習する。
フェーズII(RigidSSL-MD)は、1.3K分子動力学軌道上のこれらの表現を洗練し、物理的に現実的な遷移を捉える。
論文 参考訳(メタデータ) (2026-03-02T21:32:30Z) - Protein Autoregressive Modeling via Multiscale Structure Generation [51.92004892768298]
タンパク質自己回帰モデリング(PAR)は,タンパク質のバックボーン生成のための最初のマルチスケール自己回帰フレームワークである。
ノイズの多いコンテキスト学習とスケジュールサンプリングを採用し、堅牢なバックボーン生成を実現している。
非条件生成ベンチマークでは、PARはタンパク質の分布を効果的に学習し、高い設計品質のバックボーンを生成する。
論文 参考訳(メタデータ) (2026-02-04T18:59:49Z) - S$^2$Drug: Bridging Protein Sequence and 3D Structure in Contrastive Representation Learning for Virtual Screening [72.89086338778098]
タンパク質リガンドコントラスト表現学習のための2段階フレームワークを提案する。
最初の段階では、ESM2ベースのバックボーンを用いて、ChemBLでタンパク質配列を事前訓練する。
第2段階では、残基レベルゲーティングモジュールを介して配列と構造情報を融合することでPDBBindを微調整する。
この補助的なタスクは、モデルを誘導し、タンパク質配列内の結合残基を正確に局在させ、それらの3次元空間配列をキャプチャする。
論文 参考訳(メタデータ) (2025-11-10T11:57:47Z) - Multi-Scale Representation Learning for Protein Fitness Prediction [31.735234482320283]
これまでの手法は主に、巨大でラベルなしのタンパク質配列や構造データセットに基づいて訓練された自己教師型モデルに依存してきた。
本稿では,タンパク質の機能を統合する新しいマルチモーダル表現学習フレームワークであるSequence-Structure-Surface Fitness (S3F)モデルを紹介する。
提案手法は,タンパク質言語モデルからの配列表現と,タンパク質のバックボーンと詳細な表面トポロジーをコードするGeometric Vector Perceptronネットワークを組み合わせる。
論文 参考訳(メタデータ) (2024-12-02T04:28:10Z) - FoldToken: Learning Protein Language via Vector Quantization and Beyond [56.19308144551836]
タンパク質配列構造を離散シンボルとして表現するために textbfFoldTokenizer を導入する。
学習したシンボルを textbfFoldToken と呼び、FoldToken の配列が新しいタンパク質言語として機能する。
論文 参考訳(メタデータ) (2024-02-04T12:18:51Z) - AlphaFold Distillation for Protein Design [25.190210443632825]
逆タンパク質の折りたたみはバイオエンジニアリングと薬物発見に不可欠である。
AlphaFoldのような前方の折りたたみモデルは、シーケンスから構造を正確に予測することで潜在的な解決策を提供する。
本稿では, 折り畳みモデルの信頼性測定値に対する知識蒸留を用いて, より高速かつエンドツーエンドの識別可能な蒸留モデルを作成することを提案する。
論文 参考訳(メタデータ) (2022-10-05T19:43:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。