論文の概要: InterPLM: Discovering Interpretable Features in Protein Language Models via Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2412.12101v1
- Date: Wed, 13 Nov 2024 18:51:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-02 10:15:36.764903
- Title: InterPLM: Discovering Interpretable Features in Protein Language Models via Sparse Autoencoders
- Title(参考訳): InterPLM:スパースオートエンコーダによるタンパク質言語モデルの解釈可能な特徴の発見
- Authors: Elana Simon, James Zou,
- Abstract要約: タンパク質言語モデル(PLM)は、タンパク質モデリングと設計において顕著な成功を収めている。
スパースオートエンコーダを用いてPLMから解釈可能な特徴を抽出・解析する体系的手法を提案する。
実用的な応用として、これらの潜伏する機能は、タンパク質データベースに欠落したアノテーションをいかに満たすかを示す。
- 参考スコア(独自算出の注目度): 24.150250149027883
- License:
- Abstract: Protein language models (PLMs) have demonstrated remarkable success in protein modeling and design, yet their internal mechanisms for predicting structure and function remain poorly understood. Here we present a systematic approach to extract and analyze interpretable features from PLMs using sparse autoencoders (SAEs). By training SAEs on embeddings from the PLM ESM-2, we identify up to 2,548 human-interpretable latent features per layer that strongly correlate with up to 143 known biological concepts such as binding sites, structural motifs, and functional domains. In contrast, examining individual neurons in ESM-2 reveals up to 46 neurons per layer with clear conceptual alignment across 15 known concepts, suggesting that PLMs represent most concepts in superposition. Beyond capturing known annotations, we show that ESM-2 learns coherent concepts that do not map onto existing annotations and propose a pipeline using language models to automatically interpret novel latent features learned by the SAEs. As practical applications, we demonstrate how these latent features can fill in missing annotations in protein databases and enable targeted steering of protein sequence generation. Our results demonstrate that PLMs encode rich, interpretable representations of protein biology and we propose a systematic framework to extract and analyze these latent features. In the process, we recover both known biology and potentially new protein motifs. As community resources, we introduce InterPLM (interPLM.ai), an interactive visualization platform for exploring and analyzing learned PLM features, and release code for training and analysis at github.com/ElanaPearl/interPLM.
- Abstract(参考訳): タンパク質言語モデル(PLM)は、タンパク質モデリングと設計において顕著な成功を収めているが、構造と機能を予測する内部メカニズムは理解されていない。
本稿では,スパースオートエンコーダ(SAE)を用いてPLMから解釈可能な特徴を抽出し,解析するための体系的アプローチを提案する。
PLM ESM-2からの埋め込みについてSAEsを訓練することにより、結合部位、構造モチーフ、機能ドメインなどの143個の既知の生物学的概念と強く相関する、最大2,548個の層ごとの人間解釈可能な潜伏性特徴を同定する。
対照的に、ESM-2の個々のニューロンを調べると、1層あたり46個のニューロンが15の既知の概念に明確な概念的アライメントを持つことが明らかとなり、PLMは重ね合わせにおけるほとんどの概念を表すことが示唆された。
既存のアノテーションにマップしないコヒーレントな概念をESM-2で学習し、言語モデルを用いて、SAEが学習した新しい潜在機能を自動的に解釈するパイプラインを提案する。
実用的応用として、これらの潜在機能は、タンパク質データベースに欠落したアノテーションを補うことができ、タンパク質配列の生成を標的とするステアリングを可能にすることを実証する。
以上の結果から,PLMはタンパク質生物学のリッチで解釈可能な表現を符号化し,これらの特徴を抽出・解析するための体系的枠組みを提案する。
この過程で、既知の生物学と潜在的に新しいタンパク質モチーフの両方を回収する。
コミュニティリソースとしてのInterPLM(InterPLM.ai)は,学習したPLMの特徴を探索・解析するためのインタラクティブな可視化プラットフォームであり,github.com/ElanaPearl/interPLMでトレーニング・分析を行うためのリリースコードである。
関連論文リスト
- Interpreting and Steering Protein Language Models through Sparse Autoencoders [0.9208007322096533]
本稿では,タンパク質言語モデルの内部表現の解釈におけるスパースオートエンコーダの適用について検討する。
各潜伏成分の異なるタンパク質アノテーションとの関連性について統計的解析を行うことにより,種々のタンパク質の特徴に関連する潜在的な解釈を同定する。
次に、これらの洞察を活用してシーケンス生成をガイドし、モデルを望ましいターゲットに向けて操ることのできる関連する潜在コンポーネントをショートリスト化します。
論文 参考訳(メタデータ) (2025-02-13T10:11:36Z) - Prot2Chat: Protein LLM with Early Fusion of Sequence and Structure [7.9473027178525975]
Prot2Chatは、マルチモーダルなタンパク質表現と自然言語を統一モジュールを通じて統合する新しいフレームワークである。
本モデルでは,タンパク質配列と構造情報を統一的にエンコードするタンパク質MPNNエンコーダと,クロスアテンション機構を持つタンパク質テキストアダプタを組み込んだ。
論文 参考訳(メタデータ) (2025-02-07T05:23:16Z) - Long-context Protein Language Model [76.95505296417866]
言語モデル(LM)の自己教師による訓練は、有意義な表現の学習や創薬設計において、タンパク質配列に大きな成功を収めている。
ほとんどのタンパク質LMは、短い文脈長を持つ個々のタンパク質に基づいて訓練されたトランスフォーマーアーキテクチャに基づいている。
そこで我々は,選択的構造化状態空間モデルから構築した代替のタンパク質LMアーキテクチャであるBiMamba-Sに基づくLC-PLMを提案する。
また、第2段階のトレーニングのために、タンパク質-タンパク質相互作用グラフの文脈化を行うLC-PLM-Gも導入した。
論文 参考訳(メタデータ) (2024-10-29T16:43:28Z) - Structure-Enhanced Protein Instruction Tuning: Towards General-Purpose Protein Understanding [43.811432723460534]
本稿では,このギャップを埋めるために,構造強化タンパク質インストラクションチューニング(SEPIT)フレームワークを紹介する。
提案手法では, 構造的知識を付加するため, 構造的知識を付加し, これらの拡張された pLM を大規模言語モデル (LLM) に接続し, タンパク質の理解を創出する。
我々はこれまでで最大かつ最も包括的なタンパク質命令データセットを構築し、汎用タンパク質理解モデルの訓練と評価を可能にした。
論文 参考訳(メタデータ) (2024-10-04T16:02:50Z) - Recent advances in interpretable machine learning using structure-based protein representations [30.907048279915312]
機械学習(ML)の最近の進歩は、構造生物学の分野を変えつつある。
タンパク質3D構造を低分解能から高分解能に表現する様々な方法を提案する。
本稿では,タンパク質構造,タンパク質機能,タンパク質-タンパク質相互作用の予測などのタスクを解釈可能なML手法がどのようにサポートするかを示す。
論文 参考訳(メタデータ) (2024-09-26T10:56:27Z) - Diffusion Language Models Are Versatile Protein Learners [75.98083311705182]
本稿では,タンパク質配列の強い生成および予測能力を示す多目的なタンパク質言語モデルである拡散タンパク質言語モデル(DPLM)を紹介する。
まず, 自己制御型離散拡散確率フレームワークを用いて, 進化的タンパク質配列からのスケーラブルDPLMの事前学習を行った。
プレトレーニング後、DPLMは非条件生成のための構造的に可塑性で新規で多様なタンパク質配列を生成する能力を示す。
論文 参考訳(メタデータ) (2024-02-28T18:57:56Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering the Language of Protein [74.64101864289572]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Linguistically inspired roadmap for building biologically reliable
protein language models [0.5412332666265471]
言語学から引き出されたガイダンスは、より解釈可能なタンパク質のLMを構築するのに役立つと論じる。
学習データ,トークン化,トークン埋め込み,シーケンス埋め込み,モデル解釈に関する,タンパク質 LM パイプライン選択のための言語学的ロードマップを提供する。
論文 参考訳(メタデータ) (2022-07-03T08:42:44Z) - Learning multi-scale functional representations of proteins from
single-cell microscopy data [77.34726150561087]
局所化分類に基づいて訓練された単純な畳み込みネットワークは、多様な機能情報をカプセル化したタンパク質表現を学習できることを示す。
また,生物機能の異なるスケールでタンパク質表現の質を評価するためのロバストな評価戦略を提案する。
論文 参考訳(メタデータ) (2022-05-24T00:00:07Z) - A journey in ESN and LSTM visualisations on a language task [77.34726150561087]
我々は,CSL(Cross-Situationnal Learning)タスクでESNとLSTMを訓練した。
その結果, 性能比較, 内部力学解析, 潜伏空間の可視化の3種類が得られた。
論文 参考訳(メタデータ) (2020-12-03T08:32:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。