論文の概要: Sparse generative modeling via parameter-reduction of Boltzmann
machines: application to protein-sequence families
- arxiv url: http://arxiv.org/abs/2011.11259v3
- Date: Fri, 30 Jul 2021 08:27:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 03:21:42.670377
- Title: Sparse generative modeling via parameter-reduction of Boltzmann
machines: application to protein-sequence families
- Title(参考訳): ボルツマンマシンのパラメータ還元によるスパース生成モデリング:タンパク質配列ファミリーへの応用
- Authors: Pierre Barrat-Charlaix, Anna Paola Muntoni, Kai Shimagaki, Martin
Weigt, Francesco Zamponi
- Abstract要約: ボルツマン機械(BM)は生成モデルとして広く使われている。
BMの一般パラメータ推論手法を提案する。
いくつかのタンパク質ファミリーでは、PM結合の90%以上を除去することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Boltzmann machines (BM) are widely used as generative models. For example,
pairwise Potts models (PM), which are instances of the BM class, provide
accurate statistical models of families of evolutionarily related protein
sequences. Their parameters are the local fields, which describe site-specific
patterns of amino-acid conservation, and the two-site couplings, which mirror
the coevolution between pairs of sites. This coevolution reflects structural
and functional constraints acting on protein sequences during evolution. The
most conservative choice to describe the coevolution signal is to include all
possible two-site couplings into the PM. This choice, typical of what is known
as Direct Coupling Analysis, has been successful for predicting residue
contacts in the three-dimensional structure, mutational effects, and in
generating new functional sequences. However, the resulting PM suffers from
important over-fitting effects: many couplings are small, noisy and hardly
interpretable; the PM is close to a critical point, meaning that it is highly
sensitive to small parameter perturbations. In this work, we introduce a
general parameter-reduction procedure for BMs, via a controlled iterative
decimation of the less statistically significant couplings, identified by an
information-based criterion that selects either weak or statistically
unsupported couplings. For several protein families, our procedure allows one
to remove more than $90\%$ of the PM couplings, while preserving the predictive
and generative properties of the original dense PM, and the resulting model is
far away from criticality, hence more robust to noise.
- Abstract(参考訳): ボルツマン機械(BM)は生成モデルとして広く使われている。
例えば、BMクラスの例であるペアワイズポッツモデル(PM)は、進化的に関連付けられたタンパク質配列のファミリーの正確な統計モデルを提供する。
それらのパラメータは、アミノ酸保存の部位特異的パターンを記述する局所体と、一対の部位間の共進化を反映する二部位結合である。
この共進化は、進化中にタンパク質配列に作用する構造的および機能的制約を反映している。
共進化シグナルを記述する最も保守的な選択は、PMに可能な2つの部位の結合を全て含むことである。
直接結合解析(Direct Coupling Analysis)として知られるこの選択は、3次元構造における残基接触の予測、突然変異効果、新しい機能配列の生成に成功している。
しかし、結果として得られるPMは重要な過剰適合効果に悩まされる:多くのカップリングは小さく、ノイズが少なく、解釈しにくい;PMは臨界点に近く、小さなパラメータの摂動に非常に敏感である。
本稿では,弱結合か統計的結合かを選択する情報に基づく基準によって識別される,統計的に有意な結合の制御された反復決定を通じて,BMの一般パラメータ推論手順を導入する。
いくつかのタンパク質ファミリーでは、元の高密度PMの予測的および生成的特性を保ちながら、90\%以上のPMカップリングを除去することができ、その結果のモデルは臨界から遠く離れており、ノイズに対してより堅牢である。
関連論文リスト
- Beyond the Universal Law of Robustness: Sharper Laws for Random Features
and Neural Tangent Kernels [14.186776881154127]
本稿では、ランダム特徴とニューラル・タンジェント・カーネル(NTK)の2つの設定における経験的リスク最小化に焦点を当てた。
ランダムな特徴に対して、モデルが任意のパラメータ化の度合いに対してロバストであることは、普遍的ロバスト性法則から生じる必要条件が満たされている場合でも証明する。
本研究の結果は, 合成および標準原型データセットの数値的証拠によって裏付けられている。
論文 参考訳(メタデータ) (2023-02-03T09:58:31Z) - Noise-resilient Edge Modes on a Chain of Superconducting Qubits [103.93329374521808]
量子系の遺伝対称性は、それ以外は脆弱な状態を保護することができる。
非局所マヨラナエッジモード(MEM)を$mathbbZ$パリティ対称性で表す一次元キックドイジングモデルを実装した。
MEMは、予熱機構により特定の対称性を破るノイズに対して弾力性があることが判明した。
論文 参考訳(メタデータ) (2022-04-24T22:34:15Z) - Generative power of a protein language model trained on multiple
sequence alignments [0.5639904484784126]
進化に関連したタンパク質配列の大規模なアンサンブルから始まる計算モデルは、タンパク質ファミリーの表現を捉えている。
MSA Transformerのような複数の配列アライメントに基づいて訓練されたタンパク質言語モデルは、この目的に対して非常に魅力的な候補である。
マスク付き言語モデリングの目的を直接利用して,MSA変換器を用いてシーケンスを生成する反復手法を提案し,検証する。
論文 参考訳(メタデータ) (2022-04-14T16:59:05Z) - Contrastive Conditional Neural Processes [45.70735205041254]
条件付きニューラル・プロセス(CNP)は、メタラーニング環境下でのプロセスの機能に近い確率的推論でニューラルネットワークをブリッジする。
2つの補助的コントラスト分岐が階層的に設定される。すなわち、インストラクテーション時間的コントラスト学習(tt TCL)とクロスストラクテーション関数コントラスト学習(tt FCL)である。
実験により、tt TCLは観測の高レベルの抽象化を捉えるのに対し、tt FCLは基底関数の同定に役立ち、より効率的な表現を提供することを示す。
論文 参考訳(メタデータ) (2022-03-08T10:08:45Z) - Learning Generalized Gumbel-max Causal Mechanisms [31.64007831043909]
対物処理効果を推定する際のばらつきの最小化など,定量的な基準の下で最良となる因果メカニズムを選択することを論じる。
興味のある問合せの分布に反実効果のばらつきやその他の損失を最小化するように訓練できることが示される。
論文 参考訳(メタデータ) (2021-11-11T22:02:20Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z) - Understanding Interlocking Dynamics of Cooperative Rationalization [90.6863969334526]
選択的合理化(Selective rationalization)は、ニューラルネットワークの出力を予測するのに十分な入力の小さなサブセットを見つけることによって、複雑なニューラルネットワークの予測を説明する。
このような合理化パラダイムでは,モデルインターロックという大きな問題が浮かび上がっている。
A2Rと呼ばれる新しい合理化フレームワークを提案し、アーキテクチャに第3のコンポーネントを導入し、選択とは対照的にソフトアテンションによって駆動される予測器を提案する。
論文 参考訳(メタデータ) (2021-10-26T17:39:18Z) - Estimation of Bivariate Structural Causal Models by Variational Gaussian
Process Regression Under Likelihoods Parametrised by Normalising Flows [74.85071867225533]
因果機構は構造因果モデルによって記述できる。
最先端の人工知能の大きな欠点の1つは、説明責任の欠如である。
論文 参考訳(メタデータ) (2021-09-06T14:52:58Z) - EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based
Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。
EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:40:29Z) - Quaternion Factorization Machines: A Lightweight Solution to Intricate
Feature Interaction Modelling [76.89779231460193]
factorization machine(fm)は、機能間の高次インタラクションを自動的に学習し、手動の機能エンジニアリングを必要とせずに予測を行うことができる。
本研究では,スパース予測解析のためのQFM(Quaternion factorization Machine)とQNFM(Quaternion neural factorization Machine)を提案する。
論文 参考訳(メタデータ) (2021-04-05T00:02:36Z) - Generative Capacity of Probabilistic Protein Sequence Models [0.0]
ポッツモデルと変分オートエンコーダ(VAEs)は、最近、生成タンパク質配列モデル(GPSMs)として人気を博している。
GPSMsが転移によって引き起こされる自然配列で観察される複雑な多重残基変異パターンを忠実に再現できるかどうかは現在不明である。
我々は近年の3つのGPSMの「生成能力」を評価するための一連の統計データを開発した。
論文 参考訳(メタデータ) (2020-12-03T21:59:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。