論文の概要: Towards Interpretable Protein Structure Prediction with Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2503.08764v1
- Date: Tue, 11 Mar 2025 17:57:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:39:36.536672
- Title: Towards Interpretable Protein Structure Prediction with Sparse Autoencoders
- Title(参考訳): スパースオートエンコーダによるタンパク質構造予測に向けて
- Authors: Nithin Parsan, David J. Yang, John J. Yang,
- Abstract要約: SAEのマトリオシカは、ネストした潜伏者のグループに独立して入力を再構築させ、階層的に組織化された特徴を学習する。
我々はESEをESMFoldのベースモデルであるESM2-3Bに拡張し、初めてタンパク質構造予測の機械論的解釈を可能にする。
本研究では,ESM2-3BでトレーニングしたSAEが,生物学的概念発見と接触地図予測の両方において,より小さなモデルでトレーニングしたSAEよりも優れていたことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Protein language models have revolutionized structure prediction, but their nonlinear nature obscures how sequence representations inform structure prediction. While sparse autoencoders (SAEs) offer a path to interpretability here by learning linear representations in high-dimensional space, their application has been limited to smaller protein language models unable to perform structure prediction. In this work, we make two key advances: (1) we scale SAEs to ESM2-3B, the base model for ESMFold, enabling mechanistic interpretability of protein structure prediction for the first time, and (2) we adapt Matryoshka SAEs for protein language models, which learn hierarchically organized features by forcing nested groups of latents to reconstruct inputs independently. We demonstrate that our Matryoshka SAEs achieve comparable or better performance than standard architectures. Through comprehensive evaluations, we show that SAEs trained on ESM2-3B significantly outperform those trained on smaller models for both biological concept discovery and contact map prediction. Finally, we present an initial case study demonstrating how our approach enables targeted steering of ESMFold predictions, increasing structure solvent accessibility while fixing the input sequence. To facilitate further investigation by the broader community, we open-source our code, dataset, pretrained models https://github.com/johnyang101/reticular-sae , and visualizer https://sae.reticular.ai .
- Abstract(参考訳): タンパク質言語モデルは構造予測に革命をもたらしたが、その非線形性は配列表現が構造予測にどのように影響するかを曖昧にしている。
スパースオートエンコーダ(SAE)は、高次元空間における線形表現を学習することで、ここでの解釈可能性への道を提供するが、それらの応用は構造予測ができない小さなタンパク質言語モデルに限られている。
本研究では,(1)ESMFoldの基盤モデルであるESM2-3BにSAEを拡大し,タンパク質構造予測の機械的解釈性を初めて実現し,(2)タンパク質言語モデルにMatryoshka SAEを適応させる。
我々は,我々のMatryoshka SAEが標準アーキテクチャよりも同等あるいは優れた性能を達成できることを実証した。
総合的な評価により,ESM2-3Bで訓練されたSAEは,生物学的概念発見と接触地図予測の両方において,より小さなモデルで訓練されたSAEよりも有意に優れていた。
最後に,本手法がESMFold予測のターゲットステアリングをどのように可能にし,入力シーケンスを固定しながら構造溶媒のアクセシビリティを高めるかを示す。
より広範なコミュニティによるさらなる調査を促進するため、私たちはコード、データセット、事前訓練されたモデル https://github.com/johnyang101/reticular-sae とビジュアライザ https://sae.reticular.ai をオープンソース化しました。
関連論文リスト
- Recent advances in interpretable machine learning using structure-based protein representations [30.907048279915312]
機械学習(ML)の最近の進歩は、構造生物学の分野を変えつつある。
タンパク質3D構造を低分解能から高分解能に表現する様々な方法を提案する。
本稿では,タンパク質構造,タンパク質機能,タンパク質-タンパク質相互作用の予測などのタスクを解釈可能なML手法がどのようにサポートするかを示す。
論文 参考訳(メタデータ) (2024-09-26T10:56:27Z) - Evaluating representation learning on the protein structure universe [19.856785982914243]
ProteinWorkshopは、Graph Neural Networksでタンパク質構造の表現学習を行うためのベンチマークスイートである。
本研究は,実験と予測の両方における大規模事前学習および下流作業について考察する。
1)AlphaFold構造と補助タスクの大規模事前学習は、回転不変および同変GNNの性能を一貫して改善する。
論文 参考訳(メタデータ) (2024-06-19T21:48:34Z) - Endowing Protein Language Models with Structural Knowledge [5.587293092389789]
本稿では,タンパク質構造データを統合することにより,タンパク質言語モデルを強化する新しいフレームワークを提案する。
PST(Protein Structure Transformer)と呼ばれる精製モデルは、小さなタンパク質構造データベース上でさらに事前訓練されている。
PSTは、タンパク質配列の最先端基盤モデルであるESM-2を一貫して上回り、タンパク質機能予測の新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2024-01-26T12:47:54Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering the Language of Protein [74.64101864289572]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - Bidirectional Trained Tree-Structured Decoder for Handwritten
Mathematical Expression Recognition [51.66383337087724]
Handwriting Mathematical Expression Recognition (HMER) タスクは、OCRの分野における重要な分岐である。
近年の研究では、双方向コンテキスト情報の導入により、HMERモデルの性能が大幅に向上することが示されている。
本稿では,MF-SLT と双方向非同期トレーニング (BAT) 構造を提案する。
論文 参考訳(メタデータ) (2023-12-31T09:24:21Z) - Protein 3D Graph Structure Learning for Robust Structure-based Protein
Property Prediction [43.46012602267272]
タンパク質の構造に基づく特性予測は、様々な生物学的タスクにおいて有望なアプローチとして現れてきた。
現在のプラクティスは、推論中に正確に予測された構造を用いるだけで、予測精度の顕著な低下に悩まされている。
本フレームワークはモデルに依存しず,予測構造と実験構造の両方の特性予測の改善に有効である。
論文 参考訳(メタデータ) (2023-10-14T08:43:42Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - A Systematic Study of Joint Representation Learning on Protein Sequences
and Structures [38.94729758958265]
効果的なタンパク質表現の学習は、タンパク質機能の予測のような生物学の様々なタスクにおいて重要である。
近年, タンパク質言語モデル(PLM)に基づく配列表現学習法は, 配列ベースタスクでは優れているが, タンパク質構造に関わるタスクへの直接適応は依然として困難である。
本研究は、最先端のPLMと異なる構造エンコーダを統合することで、結合タンパク質表現学習の包括的研究を行う。
論文 参考訳(メタデータ) (2023-03-11T01:24:10Z) - Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。
我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-10-26T13:27:26Z) - Transfer Learning for Protein Structure Classification at Low Resolution [124.5573289131546]
タンパク質のクラスとアーキテクチャの正確な(geq$80%)予測を、低い(leq$3A)解像度で決定された構造から行うことができることを示す。
本稿では, 高速で低コストなタンパク質構造を低解像度で分類するための概念実証と, 機能予測への拡張の基礎を提供する。
論文 参考訳(メタデータ) (2020-08-11T15:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。