論文の概要: Protein Circuit Tracing via Cross-layer Transcoders
- arxiv url: http://arxiv.org/abs/2602.12026v1
- Date: Thu, 12 Feb 2026 14:57:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.877598
- Title: Protein Circuit Tracing via Cross-layer Transcoders
- Title(参考訳): 層間トランスコーダによるタンパク質回路の追跡
- Authors: Darin Tsui, Kunal Talreja, Daniel Saeedi, Amirali Aghazadeh,
- Abstract要約: ProtoMechは、pLMの計算回路を発見するためのフレームワークである。
タンパク質ファミリー分類および機能予測タスクにおける当初の性能の82~89%を回復する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Protein language models (pLMs) have emerged as powerful predictors of protein structure and function. However, the computational circuits underlying their predictions remain poorly understood. Recent mechanistic interpretability methods decompose pLM representations into interpretable features, but they treat each layer independently and thus fail to capture cross-layer computation, limiting their ability to approximate the full model. We introduce ProtoMech, a framework for discovering computational circuits in pLMs using cross-layer transcoders that learn sparse latent representations jointly across layers to capture the model's full computational circuitry. Applied to the pLM ESM2, ProtoMech recovers 82-89% of the original performance on protein family classification and function prediction tasks. ProtoMech then identifies compressed circuits that use <1% of the latent space while retaining up to 79% of model accuracy, revealing correspondence with structural and functional motifs, including binding, signaling, and stability. Steering along these circuits enables high-fitness protein design, surpassing baseline methods in more than 70% of cases. These results establish ProtoMech as a principled framework for protein circuit tracing.
- Abstract(参考訳): タンパク質言語モデル(pLM)は、タンパク質の構造と機能の強力な予測因子として登場した。
しかし、それらの予測の根底にある計算回路はいまだに理解されていない。
最近の機械的解釈可能性法では、pLM表現を解釈可能な特徴に分解するが、各層を独立に扱い、したがって層間計算を捕捉できず、モデル全体を近似する能力が制限される。
本稿では,PLMにおける計算回路を発見するためのフレームワークであるProtoMechを紹介する。
pLM ESM2に適用されたProtoMechは、タンパク質ファミリー分類および機能予測タスクにおける元の性能の82~89%を回復する。
そしてProtoMechは、圧縮された回路を識別し、潜在空間の1%を圧縮し、モデル精度の79%を維持し、結合、シグナリング、安定性を含む構造的および機能的モチーフとの対応を明らかにする。
これらの回路に沿ってステアリングすることで、70%以上のケースでベースライン法を超越した高適合性タンパク質の設計が可能になる。
これらの結果はProtoMechをタンパク質回路トレースの原則的枠組みとして確立している。
関連論文リスト
- SaDiT: Efficient Protein Backbone Design via Latent Structural Tokenization and Diffusion Transformers [50.18388227899971]
本稿では,SaProt TokenizationとDiffusion Transformer (DiT)アーキテクチャを統合することで,タンパク質のバックボーン生成を促進する新しいフレームワークであるSaDiTを提案する。
実験により、SaDiTはRFDiffusionやProteinaといった最先端モデルよりも計算速度と構造的生存性が優れていることが示された。
論文 参考訳(メタデータ) (2026-02-06T13:50:13Z) - Identification of Capture Phases in Nanopore Protein Sequencing Data Using a Deep Learning Model [0.0]
ダウンサンプリング信号窓の捕捉位相を検出する軽量な1次元畳み込みニューラルネットワーク (1D CNN) を開発した。
我々の最良のモデルであるCaptureNet-Deepは、ホールドアウトテストデータでF1スコア0.94と精度93.39%を達成した。
これらの結果から,シンプルかつ解釈可能なアーキテクチャを用いて,効率的なリアルタイムキャプチャ検出が可能であることが示唆された。
論文 参考訳(メタデータ) (2025-11-03T06:51:53Z) - Towards Understanding the Shape of Representations in Protein Language Models [0.0]
我々は,2乗根速度 (SRV) の表現とグラフ濾過によるタンパク質の構造と表現を同定する。
我々は PLM が直接的および局所的な残基間の関係を優先的に符号化するが、より大きな文脈長に対して劣化し始めることを発見した。
論文 参考訳(メタデータ) (2025-09-29T15:06:24Z) - Sparse Autoencoders for Low-$N$ Protein Function Prediction and Design [0.0]
アミノ酸配列からのタンパク質機能の予測は、データスカース機構における中心的な課題である。
タンパク質言語モデル(pLM)は進化的インフォームド埋め込みとスパースオートエンコーダ(SAE)を提供することによって分野を進歩させた。
SAEは、24のシーケンスしか持たないが、フィットネス予測において、ESM2ベースラインよりも一貫して優れているか、競争している。
論文 参考訳(メタデータ) (2025-08-25T23:56:39Z) - PRING: Rethinking Protein-Protein Interaction Prediction from Pairs to Graphs [88.98041407783502]
PRINGは、タンパク質とタンパク質の相互作用予測をグラフレベルで評価する最初のベンチマークである。
PRINGは、21,484タンパク質と186,818の相互作用からなる高品質な多種PPIネットワークデータセットをキュレートする。
論文 参考訳(メタデータ) (2025-07-07T15:21:05Z) - SeqProFT: Applying LoRA Finetuning for Sequence-only Protein Property Predictions [8.112057136324431]
本研究では,ESM-2モデルのエンド・ツー・エンドの微調整を行うためにLoRA法を用いる。
下流ネットワークにマルチヘッドアテンション機構を統合して、シーケンス特徴とコンタクトマップ情報を組み合わせる。
論文 参考訳(メタデータ) (2024-11-18T12:40:39Z) - MeToken: Uniform Micro-environment Token Boosts Post-Translational Modification Prediction [65.33218256339151]
翻訳後修飾(PTM)はプロテオームの複雑さと機能を大幅に拡張する。
既存の計算手法は主に、配列依存的なモチーフの認識によって引き起こされる、PTM部位を予測するタンパク質配列に焦点を当てている。
本稿では,各酸のマイクロ環境をトークン化し,シーケンス情報と構造情報を統一された離散トークンに統合するMeTokenモデルを提案する。
論文 参考訳(メタデータ) (2024-11-04T07:14:28Z) - The Power of Resets in Online Reinforcement Learning [73.64852266145387]
ローカルシミュレータアクセス(あるいはローカルプランニング)を用いたオンライン強化学習を通してシミュレータのパワーを探求する。
カバー性が低いMPPは,Qstar$-realizabilityのみのサンプル効率で学習可能であることを示す。
ローカルシミュレーターアクセス下では, 悪名高いExogenous Block MDP問題が抽出可能であることを示す。
論文 参考訳(メタデータ) (2024-04-23T18:09:53Z) - A Systematic Study of Joint Representation Learning on Protein Sequences
and Structures [38.94729758958265]
効果的なタンパク質表現の学習は、タンパク質機能の予測のような生物学の様々なタスクにおいて重要である。
近年, タンパク質言語モデル(PLM)に基づく配列表現学習法は, 配列ベースタスクでは優れているが, タンパク質構造に関わるタスクへの直接適応は依然として困難である。
本研究は、最先端のPLMと異なる構造エンコーダを統合することで、結合タンパク質表現学習の包括的研究を行う。
論文 参考訳(メタデータ) (2023-03-11T01:24:10Z) - EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based
Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。
EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。