論文の概要: Generative Capacity of Probabilistic Protein Sequence Models
- arxiv url: http://arxiv.org/abs/2012.02296v2
- Date: Mon, 15 Mar 2021 21:15:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-23 16:21:44.173135
- Title: Generative Capacity of Probabilistic Protein Sequence Models
- Title(参考訳): 確率的タンパク質配列モデルの生成能
- Authors: Francisco McGee, Quentin Novinger, Ronald M. Levy, Vincenzo Carnevale,
Allan Haldane
- Abstract要約: ポッツモデルと変分オートエンコーダ(VAEs)は、最近、生成タンパク質配列モデル(GPSMs)として人気を博している。
GPSMsが転移によって引き起こされる自然配列で観察される複雑な多重残基変異パターンを忠実に再現できるかどうかは現在不明である。
我々は近年の3つのGPSMの「生成能力」を評価するための一連の統計データを開発した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Potts models and variational autoencoders (VAEs) have recently gained
popularity as generative protein sequence models (GPSMs) to explore fitness
landscapes and predict the effect of mutations. Despite encouraging results,
quantitative characterization and comparison of GPSM-generated probability
distributions is still lacking. It is currently unclear whether GPSMs can
faithfully reproduce the complex multi-residue mutation patterns observed in
natural sequences arising due to epistasis. We develop a set of sequence
statistics to assess the "generative capacity" of three GPSMs of recent
interest: the pairwise Potts Hamiltonian, the VAE, and the site-independent
model, using natural and synthetic datasets. We show that the generative
capacity of the Potts Hamiltonian model is the largest, in that the higher
order mutational statistics generated by the model agree with those observed
for natural sequences. In contrast, we show that the VAE's generative capacity
lies between the pairwise Potts and site-independent models. Importantly, our
work measures GPSM generative capacity in terms of higher-order sequence
covariation statistics which we have developed, and provides a new framework
for evaluating and interpreting GPSM accuracy that emphasizes the role of
epistasis.
- Abstract(参考訳): ポッツモデルと変分オートエンコーダ(VAE)は近年、フィットネスランドスケープを探索し、突然変異の影響を予測するために、生成タンパク質配列モデル(GPSM)として人気を集めている。
奨励的な結果にもかかわらず、GPSM生成確率分布の定量的特徴と比較はいまだに欠落している。
GPSMsが転移によって引き起こされる自然配列で観察される複雑な多重残基変異パターンを忠実に再現できるかどうかは現在不明である。
我々は,最近注目されている3つのGPSM(Potts Hamiltonian, VAE, サイト非依存モデル)の「生成能力」を評価するために,自然および合成データセットを用いた一連の統計データを開発した。
ポッツハミルトニアンモデルの生成能力は、モデルによって生成された高次突然変異統計量と自然数列で観測されるものとの一致が最大であることを示す。
対照的に、VAEの生成能力は、ペアのポットとサイト非依存モデルの間にある。
重要な点は,我々が開発した高次シーケンス共変統計量の観点からgpsm生成能力を測定し,エピスタシスの役割を強調したgpsm精度の評価と解釈のための新しい枠組みを提供することである。
関連論文リスト
- Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - Generating Multi-Modal and Multi-Attribute Single-Cell Counts with CFGen [76.02070962797794]
マルチモーダル単細胞数に対するフローベース条件生成モデルであるセルフロー・フォー・ジェネレーションを提案する。
本研究は, 新規な生成タスクを考慮に入れた上で, 重要な生物学的データ特性の回復性の向上を示唆するものである。
論文 参考訳(メタデータ) (2024-07-16T14:05:03Z) - Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - A Poisson-Gamma Dynamic Factor Model with Time-Varying Transition Dynamics [51.147876395589925]
非定常PGDSは、基礎となる遷移行列が時間とともに進化できるように提案されている。
後続シミュレーションを行うために, 完全共役かつ効率的なギブスサンプリング装置を開発した。
実験により,提案した非定常PGDSは,関連するモデルと比較して予測性能が向上することを示した。
論文 参考訳(メタデータ) (2024-02-26T04:39:01Z) - Synthetic location trajectory generation using categorical diffusion
models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。
本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:57:39Z) - Mixed Effects Neural ODE: A Variational Approximation for Analyzing the
Dynamics of Panel Data [50.23363975709122]
パネルデータ解析に(固定・ランダムな)混合効果を取り入れたME-NODEという確率モデルを提案する。
我々は、Wong-Zakai定理によって提供されるSDEの滑らかな近似を用いて、我々のモデルを導出できることを示す。
次に、ME-NODEのためのエビデンスに基づく下界を導出し、(効率的な)トレーニングアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-02-18T22:41:51Z) - Optimal regularizations for data generation with probabilistic graphical
models [0.0]
経験的に、よく調和された正規化スキームは、推論されたモデルの品質を劇的に改善する。
生成的ペアワイドグラフィカルモデルの最大Aポストエリオーリ(MAP)推論におけるL2とL1の正規化について検討する。
論文 参考訳(メタデータ) (2021-12-02T14:45:16Z) - PhyloTransformer: A Discriminative Model for Mutation Prediction Based
on a Multi-head Self-attention Mechanism [10.468453827172477]
重症急性呼吸器症候群ウイルス2(SARS-CoV-2)は10/19/21で219万人が感染し、死亡率は3.6%となっている。
そこで我々は,トランスフォーマーを用いた識別モデルであるPhylo Transformerを開発した。
論文 参考訳(メタデータ) (2021-11-03T01:30:57Z) - Anomaly Detection of Time Series with Smoothness-Inducing Sequential
Variational Auto-Encoder [59.69303945834122]
Smoothness-Inducing Sequential Variational Auto-Encoder (SISVAE) モデルを提案する。
我々のモデルは、フレキシブルニューラルネットワークを用いて各タイムスタンプの平均と分散をパラメータ化する。
合成データセットと公開実世界のベンチマークの両方において,本モデルの有効性を示す。
論文 参考訳(メタデータ) (2021-02-02T06:15:15Z) - Increased peak detection accuracy in over-dispersed ChIP-seq data with
supervised segmentation models [2.2559617939136505]
制約のない複数変更点検出モデルにおいて、代替ノイズ仮定と適切な設定により、カウントデータによる過分散を低減できることを示す。
結果: 代替ノイズ仮定と適切なセットアップを備えた制約のないマルチチェンジポイント検出モデルにより、カウントデータによって表示される過分散が減少することを示した。
論文 参考訳(メタデータ) (2020-12-12T16:03:27Z) - Sparse generative modeling via parameter-reduction of Boltzmann
machines: application to protein-sequence families [0.0]
ボルツマン機械(BM)は生成モデルとして広く使われている。
BMの一般パラメータ推論手法を提案する。
いくつかのタンパク質ファミリーでは、PM結合の90%以上を除去することができる。
論文 参考訳(メタデータ) (2020-11-23T08:01:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。