論文の概要: On Recovering Higher-order Interactions from Protein Language Models
- arxiv url: http://arxiv.org/abs/2405.06645v1
- Date: Fri, 15 Mar 2024 16:35:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 10:40:42.719955
- Title: On Recovering Higher-order Interactions from Protein Language Models
- Title(参考訳): タンパク質言語モデルによる高次相互作用の復元について
- Authors: Darin Tsui, Amirali Aghazadeh,
- Abstract要約: 3つのタンパク質-緑色蛍光タンパク質(GFP)、腫瘍タンパク質P53(TP53)、GドメインB1(GB1)に適用されるタンパク質言語モデルESM2の系統的フーリエ解析を行うフレームワークを開発する。
ESM2 はスパースフーリエ変換に適するスポーシティ・ラゲネス平面の 3 つの領域で支配されていることを示す。
- 参考スコア(独自算出の注目度): 0.3376269351435395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Protein language models leverage evolutionary information to perform state-of-the-art 3D structure and zero-shot variant prediction. Yet, extracting and explaining all the mutational interactions that govern model predictions remains difficult as it requires querying the entire amino acid space for $n$ sites using $20^n$ sequences, which is computationally expensive even for moderate values of $n$ (e.g., $n\sim10$). Although approaches to lower the sample complexity exist, they often limit the interpretability of the model to just single and pairwise interactions. Recently, computationally scalable algorithms relying on the assumption of sparsity in the Fourier domain have emerged to learn interactions from experimental data. However, extracting interactions from language models poses unique challenges: it's unclear if sparsity is always present or if it is the only metric needed to assess the utility of Fourier algorithms. Herein, we develop a framework to do a systematic Fourier analysis of the protein language model ESM2 applied on three proteins-green fluorescent protein (GFP), tumor protein P53 (TP53), and G domain B1 (GB1)-across various sites for 228 experiments. We demonstrate that ESM2 is dominated by three regions in the sparsity-ruggedness plane, two of which are better suited for sparse Fourier transforms. Validations on two sample proteins demonstrate recovery of all interactions with $R^2=0.72$ in the more sparse region and $R^2=0.66$ in the more dense region, using only 7 million out of $20^{10}\sim10^{13}$ ESM2 samples, reducing the computational time by a staggering factor of 15,000. All codes and data are available on our GitHub repository https://github.com/amirgroup-codes/InteractionRecovery.
- Abstract(参考訳): タンパク質言語モデルは進化情報を利用して最先端の3D構造とゼロショット変動予測を行う。
しかし、モデル予測を支配する全ての突然変異相互作用の抽出と説明は、$n$の配列を用いて$n$のサイトでアミノ酸空間全体をクエリする必要があるため、依然として困難であり、これは$n$の中間値(例えば$n\sim10$)でさえ計算的に高価である。
サンプルの複雑さを下げるためのアプローチは存在するが、それらはしばしばモデルの解釈可能性を単対相互作用に制限する。
近年,実験データから相互作用を学習するために,フーリエ領域の空間性を仮定した計算スケーラブルなアルゴリズムが出現している。
しかし、言語モデルから相互作用を抽出することは、ユニークな課題を生じさせる: 疎性は常に存在するか、それがフーリエアルゴリズムの有用性を評価するのに必要な唯一の指標であるかは、不明である。
本稿では,3つのタンパク質-緑色蛍光タンパク質 (GFP) , 腫瘍タンパク質 P53 (TP53) およびGドメイン B1 (GB1) に適用されるタンパク質言語モデルESM2の系統的フーリエ解析を行い, 228の実験を行った。
ESM2 はスパースフーリエ変換に適するスポーシティ・ラゲネス平面の 3 つの領域で支配されていることを示す。
2つのサンプルタンパク質のバリデーションは、よりスパースな領域における$R^2=0.72$とより密度の高い領域における$R^2=0.66$との全ての相互作用の回復を示す。
すべてのコードとデータはGitHubリポジトリhttps://github.com/amirgroup-codes/InteractionRecovery.comから入手可能です。
関連論文リスト
- Efficient Sample-optimal Learning of Gaussian Tree Models via Sample-optimal Testing of Gaussian Mutual Information [1.7419682548187605]
ガウス確率変数に対する条件付き相互情報テスタを開発した。
条件付き相互情報の連鎖ルールは、推定された(条件付き)相互情報の保持を継続することを示す。
また、基礎となるガウスモデルが木構造であることが分かっていない場合、$widetildeTheta(n2varepsilon-2)$サンプルが必要であることも示している。
論文 参考訳(メタデータ) (2024-11-18T12:25:34Z) - Inverse Entropic Optimal Transport Solves Semi-supervised Learning via Data Likelihood Maximization [65.8915778873691]
条件分布は機械学習の中心的な問題です
ペアデータとペアデータの両方を統合する新しい学習パラダイムを提案する。
我々のアプローチはまた、興味深いことに逆エントロピー最適輸送(OT)と結びついている。
論文 参考訳(メタデータ) (2024-10-03T16:12:59Z) - Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。
我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。
我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-05-10T09:58:47Z) - Model-adapted Fourier sampling for generative compressed sensing [7.130302992490975]
測定行列が一意行列からランダムにサブサンプリングされたとき, 生成的圧縮センシングについて検討した。
我々は,textitO(kd| boldsymbolalpha|_22)$の測定精度を改良したモデル適応サンプリング戦略を構築した。
論文 参考訳(メタデータ) (2023-10-08T03:13:16Z) - Higher Order Gauge Equivariant CNNs on Riemannian Manifolds and
Applications [7.322121417864824]
我々はゲージ同変畳み込み(GEVNet)と呼ばれるゲージ同変畳み込みの高次一般化を導入する。
これにより、空間的に拡張された非線形相互作用を、大域的等距離と等値性を維持しながら、与えられた場内でモデル化することができる。
神経画像データ実験では、結果として生じる2部構造を用いて、拡散磁気共鳴画像(dMRI)からLewy Body Disease(DLB)、Alzheimer's Disease(AD)、Parkinson's Disease(PD)を自動判別する。
論文 参考訳(メタデータ) (2023-05-26T06:02:31Z) - Detection-Recovery Gap for Planted Dense Cycles [72.4451045270967]
期待帯域幅$n tau$とエッジ密度$p$をエルドホス=R'enyiグラフ$G(n,q)$に植え込むモデルを考える。
低次アルゴリズムのクラスにおいて、関連する検出および回復問題に対する計算しきい値を特徴付ける。
論文 参考訳(メタデータ) (2023-02-13T22:51:07Z) - FeDXL: Provable Federated Learning for Deep X-Risk Optimization [105.17383135458897]
我々は、既存のアルゴリズムが適用できないXリスクのファミリーを最適化するために、新しい連邦学習(FL)問題に取り組む。
Xリスクに対するFLアルゴリズムを設計する際の課題は、複数のマシンに対する目的の非可逆性と、異なるマシン間の相互依存にある。
論文 参考訳(メタデータ) (2022-10-26T00:23:36Z) - A Law of Robustness beyond Isoperimetry [84.33752026418045]
我々は、任意の分布上でニューラルネットワークパラメータを補間する頑健性の低い$Omega(sqrtn/p)$を証明した。
次に、$n=mathrmpoly(d)$のとき、スムーズなデータに対する過度なパラメータ化の利点を示す。
我々は、$n=exp(omega(d))$ のとき、$O(1)$-Lipschitz の頑健な補間関数の存在を否定する。
論文 参考訳(メタデータ) (2022-02-23T16:10:23Z) - Supervised deep learning prediction of the formation enthalpy of the
full set of configurations in complex phases: the $\sigma-$phase as an
example [1.8369974607582582]
固体化学におけるいくつかの特性の予測に機械学習をどのように利用できるかを示す。
特に、与えられた複雑な結晶相の形成熱を予測するのに使用できる。
論文 参考訳(メタデータ) (2020-11-21T22:07:15Z) - Machine learning for complete intersection Calabi-Yau manifolds: a
methodological study [0.0]
我々は機械学習(ML)を用いてホッジ数$h1,1$と$h2,1$の完全なカラビ・ヤウ交差点を予測する問題を再考する。
我々は、古いデータセットのインセプションモデルにインスパイアされたニューラルネットワークを使用して、トレーニング用のデータの30% (resp. 70%) のみを使用して、97% (resp. 99%) の精度で$h1,1$を得る。
新しい例では、単純な線形回帰は、トレーニング用のデータの30%でほぼ100%の正確性をもたらす。
論文 参考訳(メタデータ) (2020-07-30T19:43:49Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。