論文の概要: Retrieval and competition: how a protein foundation model starts a protein
- arxiv url: http://arxiv.org/abs/2605.16331v1
- Date: Tue, 05 May 2026 17:51:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.891081
- Title: Retrieval and competition: how a protein foundation model starts a protein
- Title(参考訳): タンパク質基盤モデルがタンパク質をどうやって開始するか
- Authors: Piotr Jedryszek, Oliver M. Crook,
- Abstract要約: タンパク質はメチオニンから始まり、ESM2-8Mが予測する計算経路を辿ることによって研究される。
モデルは、マスクされた位置でメチオニンを検知しない。代わりに、位置特化クエリを介して、参照表現からメチオニンのフェービング信号を検索する。
モデルの予測は、直接認識ではなく、分散計算回路によって媒介され、タスクの複雑さの増大は、モデルの信頼性と基礎となる生物学的証拠との関係をさらに曖昧にすることを示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Protein language models are increasingly used to guide experimental and clinical decisions, yet it is often unclear whether a confident prediction reflects recognition of biological evidence or retrieval of a statistical default. We examine this distinction for a near-universal biological rule, that proteins begin with methionine, by tracing the computational pathway through which ESM2-8M produces this prediction. The model does not detect methionine at the masked position. Instead, it retrieves a methionine-favouring signal from a reference representation at the beginning-of-sequence token via a position-specific query assembled across layers, with the final output emerging through competition with context-dependent circuits. To understand how positional information reaches the readout, we introduce a norm-direction decomposition of attention scores within rotary frequency bands. Positional encoding operates through coupled changes in query norm and angular alignment distributed across these bands. On sequences whose true N-terminus is not methionine, where the biological question matters, the model predicts methionine anyway. This is not a correct prediction produced by an unexpected mechanism, but the output of a positional-prior retrieval circuit that matches the statistical average and fails where biology diverges from it. Distinguishing the two requires resolution at the level of individual circuits, frequency bands, and query composition, suggesting that mechanistic verification will be necessary, and challenging, for predictions where the biological stakes are higher. Even for the simplest biological rule, the model's prediction is mediated by a distributed computational circuit rather than direct recognition, suggesting that increasing task complexity will further obscure the relationship between model confidence and underlying biological evidence.
- Abstract(参考訳): タンパク質言語モデルは、実験的および臨床的決定を導くのにますます使われているが、確実な予測が生物学的証拠の認識や統計的デフォルトの検索を反映しているかは、しばしば不明である。
タンパク質はメチオニンから始まり、ESM2-8Mが生成する計算経路を辿る。
モデルは、マスクされた位置でメチオニンを検知しない。
代わりに、レイヤ間で組み立てられた位置固有のクエリを通じて、シーケンストークンの参照表現からメチオニンフェービング信号を検索し、最終的な出力はコンテキスト依存回路との競合によって現れる。
位置情報が読み出し値にどのように到達するかを理解するために、回転周波数帯内の注意点のノルム方向分解を導入する。
位置符号化は、これらの帯域に分散したクエリノルムと角アライメントの結合した変更を通して動作する。
真のN末端がメチオニンではない配列では、生物学的な疑問が重要であるが、このモデルはメチオニンを予測する。
これは予期せぬメカニズムによって生成される正しい予測ではなく、統計平均にマッチする位置優先検索回路の出力は、生物学がそれから分岐する場所で失敗する。
この2つを解消するには、個々の回路、周波数帯域、クエリ構成のレベルでの解決が必要である。
最も単純な生物学的ルールであっても、モデルの予測は直接認識ではなく分散計算回路によって媒介されるため、タスクの複雑さの増大はモデルの信頼性と基礎となる生物学的証拠との関係をさらに曖昧にすることを示唆している。
関連論文リスト
- Protein Thoughts: Interpretable Reasoning with Tree of Thoughts and Embedding-Space Flow Matching for Protein-Protein Interaction Discovery [9.70057752523548]
我々は、明示的な推論を伴う解釈可能な探索問題として、PPI発見を再構成するフレームワークである textbfProtein Thoughts を提案する。
タンパク質思考は、エントロピー木探索ベースラインにおいて平均11.2対47.7の平均的バインダーランクを達成し、76%の改善、および結合予測のために、訓練された値関数は91.08 pm 0.19$ Micro-F1に達する。
論文 参考訳(メタデータ) (2026-05-19T04:14:06Z) - A neurosymbolic Approach with Epistemic Deep Learning for Hierarchical Image Classification [7.18839452757154]
本研究では,スイニングトランスフォーマーを増強するための統合型ニューロシンボリック・エピステマティック・モデリングフレームワークを提案する。
ラベルを孤立したカテゴリとして扱うのではなく、本手法はデータ駆動型焦点セットを誘導する。
これらの焦点集合は信念理論の層の基礎を形成する。
学習可能な損失は、キャリブレーション、質量正規化、論理一貫性のバランスを保ち、モデルがデータ駆動型エビデンスでシンボル構造を適応的に取り除くことができる。
論文 参考訳(メタデータ) (2026-05-11T09:43:43Z) - Decoupled PFNs: Identifiable Epistemic-Aleatoric Decomposition via Structured Synthetic Priors [25.166488691037078]
Pre-Fitted Networks (PFNs) は、合成タスクに対するメタラーニングによるベイズ予測を補正するが、その標準出力はノイズの観測よりも後続の予測分布である。
以上の結果から, このてんかんの分離は, 一般的には後部予測分布だけでは識別できないことが明らかとなった。
我々はこれらのラベルを用いて、非結合のPFNを、別個の潜在信号頭とアレータリックヘッドで訓練する。
論文 参考訳(メタデータ) (2026-05-07T15:22:35Z) - Detecting Batch Heterogeneity via Likelihood Clustering [0.9668407688201359]
バッチエフェクトはゲノム診断の主要な共同創設者である。
ベイジアンモデル証拠に従ってサンプルをクラスタリングすることで,両方の制約に対処する手法を提案する。
本手法は,標準相関法や次元縮小法と比較して,クラスタリング精度が優れている。
論文 参考訳(メタデータ) (2026-01-14T01:49:21Z) - Chaos, Entanglement and Measurement: Field-Theoretic Perspectives on Quantum Information Dynamics [0.0]
I study scrambling and pseudorandomness in the Brownian Sachdev-Ye-Kitaev model。
弱測定SYKクラスターに対する場の理論を構築する。
測定専用SYKクラスタのための高次再正規化グループを開発した。
論文 参考訳(メタデータ) (2025-12-11T10:04:30Z) - Departures: Distributional Transport for Single-Cell Perturbation Prediction with Neural Schrödinger Bridges [51.83259180910313]
遺伝子機能解析における大きなボトルネックは、単細胞データの未成熟の性質である。
我々は、SB(Schrdinger Bridge)を近似して、単セル摂動データに対処する。
本モデルは,異種単一セル応答を効果的に捉え,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-11-17T08:27:13Z) - Unlasting: Unpaired Single-Cell Multi-Perturbation Estimation by Dual Conditional Diffusion Implicit Bridges [68.98973318553983]
本稿では,Dual Diffusion Implicit Bridges (DDIB) に基づくフレームワークを提案する。
我々は、生物学的に意味のある方法で摂動シグナルを伝達するために遺伝子制御ネットワーク(GRN)情報を統合する。
また、サイレント遺伝子を予測し、生成したプロファイルの品質を向上させるためのマスキング機構も組み込んだ。
論文 参考訳(メタデータ) (2025-06-26T09:05:38Z) - Detecting and Identifying Selection Structure in Sequential Data [53.24493902162797]
我々は,音楽のシーケンスなどの実践的な状況において,潜在目的に基づくデータポイントの選択的包摂が一般的である,と論じる。
選択構造はパラメトリックな仮定や介入実験なしで識別可能であることを示す。
また、他の種類の依存関係と同様に、選択構造を検知し、識別するための証明可能な正当性アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-29T20:56:34Z) - Neuro-Symbolic Entropy Regularization [78.16196949641079]
構造化予測では、目的は構造化されたオブジェクトをエンコードする多くの出力変数を共同で予測することである。
エントロピー正則化(Entropy regularization)という1つのアプローチは、決定境界が低確率領域にあるべきであることを示唆している。
我々は、モデルが有効対象を確実に予測することを奨励する損失、ニューロシンボリックエントロピー正規化を提案する。
論文 参考訳(メタデータ) (2022-01-25T06:23:10Z) - The Hidden Uncertainty in a Neural Networks Activations [105.4223982696279]
ニューラルネットワークの潜在表現の分布は、アウト・オブ・ディストリビューション(OOD)データの検出に成功している。
本研究は、この分布が、モデルの不確実性と相関しているかどうかを考察し、新しい入力に一般化する能力を示す。
論文 参考訳(メタデータ) (2020-12-05T17:30:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。