論文の概要: Protein Discovery with Discrete Walk-Jump Sampling
- arxiv url: http://arxiv.org/abs/2306.12360v1
- Date: Thu, 8 Jun 2023 17:03:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 01:09:19.835206
- Title: Protein Discovery with Discrete Walk-Jump Sampling
- Title(参考訳): 離散ウォークジャンプサンプリングによるタンパク質発見
- Authors: Nathan C. Frey, Daniel Berenberg, Karina Zadorozhny, Joseph Kleinhenz,
Julien Lafrance-Vanasse, Isidro Hotzel, Yan Wu, Stephen Ra, Richard Bonneau,
Kyunghyun Cho, Andreas Loukas, Vladimir Gligorijevic, Saeed Saremi
- Abstract要約: 我々はスムーズなエネルギー関数を学び、ランゲヴィン・マルコフ連鎖モンテカルロの滑らかなデータ多様体からサンプリングし、一段階のデノイングで真のデータ多様体に投影する。
我々の離散ウォーク・ジャンプサンプリング形式は、エネルギーベースモデルの最大可能性トレーニングとスコアベースモデルのサンプル品質の改善を組み合わせたものである。
抗体タンパク質生成モデルにおける本手法のロバスト性を評価し, タンパク質生成モデルに分布整合性スコアを導入する。
- 参考スコア(独自算出の注目度): 54.588524248466406
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We resolve difficulties in training and sampling from a discrete generative
model by learning a smoothed energy function, sampling from the smoothed data
manifold with Langevin Markov chain Monte Carlo (MCMC), and projecting back to
the true data manifold with one-step denoising. Our Discrete Walk-Jump Sampling
formalism combines the maximum likelihood training of an energy-based model and
improved sample quality of a score-based model, while simplifying training and
sampling by requiring only a single noise level. We evaluate the robustness of
our approach on generative modeling of antibody proteins and introduce the
distributional conformity score to benchmark protein generative models. By
optimizing and sampling from our models for the proposed distributional
conformity score, 97-100% of generated samples are successfully expressed and
purified and 35% of functional designs show equal or improved binding affinity
compared to known functional antibodies on the first attempt in a single round
of laboratory experiments. We also report the first demonstration of long-run
fast-mixing MCMC chains where diverse antibody protein classes are visited in a
single MCMC chain.
- Abstract(参考訳): 離散生成モデルにおける学習とサンプリングの難しさは、滑らかなエネルギー関数を学習し、ランジュバン・マルコフ連鎖モンテカルロ(mcmc)で滑らかなデータ多様体からサンプリングし、一段階の分別で真のデータ多様体へ投影することで解決する。
我々の離散ウォーク・ジャンプサンプリング形式は、エネルギーベースモデルの最大限のトレーニングとスコアベースモデルのサンプル品質の改善を組み合わせ、単一ノイズレベルのみを必要とするトレーニングとサンプリングを簡素化する。
抗体タンパク質生成モデルにおける本手法のロバスト性を評価し,タンパク質生成モデルに分布整合性スコアを導入する。
提案した分布適合度スコアをモデルから最適化・サンプリングすることにより, 97-100%のサンプルを正常に表現し精製し, 35%の官能基設計は, 実験1回実験において, 既知の官能基抗体と同等あるいは改善された結合親和性を示す。
また,MCMC鎖に多種多様な抗体タンパク群が出現する長周期高速混合MCMCMC鎖の最初の実演も報告した。
関連論文リスト
- Iterated Denoising Energy Matching for Sampling from Boltzmann Densities [111.90150190668555]
反復Denoising Energy Matching (iDEM)
iDEMは,拡散型サンプリング装置から高モデル密度のサンプリング領域を (I) 交換し, (II) それらのサンプルをマッチング目的に使用した。
提案手法は,全測定値の最先端性能を達成し,2~5倍の速さでトレーニングを行う。
論文 参考訳(メタデータ) (2024-02-09T01:11:23Z) - Learning Energy-Based Models by Cooperative Diffusion Recovery
Likelihood [70.96045509920326]
高次元データに対する最大推定値のトレーニングエネルギーベースモデル(EBMs)は、困難かつ時間を要する可能性がある。
本研究では,データセットの雑音の増大する頂点上で定義された一連のEMMから,協調拡散回復確率(CDRL)を抽出し,抽出する手法を提案する。
CIFAR-10 と ImageNet 32x32 の既存 EBM 法と比較して FID のスコアが大幅に向上し,DRL を2倍高速化した。
論文 参考訳(メタデータ) (2023-09-10T22:05:24Z) - Generating High Fidelity Synthetic Data via Coreset selection and
Entropic Regularization [15.866662428675054]
本稿では,コアセット選択法とエントロピー正規化法を組み合わせて,最も高い忠実度サンプルを選択することを提案する。
半教師付き学習シナリオでは、ラベル付きデータセットを増大させ、選択したサンプルのサブセットを追加することにより、精度が向上することを示す。
論文 参考訳(メタデータ) (2023-01-31T22:59:41Z) - Model ensemble instead of prompt fusion: a sample-specific knowledge
transfer method for few-shot prompt tuning [85.55727213502402]
我々は、ソースタスクのソフトプロンプトから知識を伝達することで、プロンプトチューニングにおける数ショットのパフォーマンスを改善することに集中する。
我々はソースモデル(SESoM)のサンプル固有アンサンブルを提案する。
SESoMは、ソースモデルが出力されるときに、ターゲットの各サンプルに対するソースモデルのコントリビューションを個別に調整することを学ぶ。
論文 参考訳(メタデータ) (2022-10-23T01:33:16Z) - Reconstructing the Universe with Variational self-Boosted Sampling [7.922637707393503]
ハミルトニアン・モンテカルロ (HMC) のような伝統的なアルゴリズムは、相関サンプルを生成するために計算的に非効率である。
本稿では,両アルゴリズムの欠点を軽減するために,変分自己ブーストサンプリング(VBS)と呼ばれるハイブリッド方式を開発する。
VBSは、単純なVIアプローチよりも優れた品質のサンプルを生成し、HMCのみを用いてサンプリングフェーズの相関長を10~50倍に削減する。
論文 参考訳(メタデータ) (2022-06-28T21:30:32Z) - Score-Based Generative Models for Molecule Generation [0.8808021343665321]
我々は、ZINCデータセットから150万のサンプルを表現したTransformerベースのスコア関数をトレーニングする。
私たちは、Mosesベンチマークフレームワークを使用して、一連のメトリクスで生成されたサンプルを評価します。
論文 参考訳(メタデータ) (2022-03-07T13:46:02Z) - Continual Learning with Fully Probabilistic Models [70.3497683558609]
機械学習の完全確率的(または生成的)モデルに基づく継続的学習のアプローチを提案する。
生成器と分類器の両方に対してガウス混合モデル(GMM)インスタンスを用いた擬似リハーサル手法を提案する。
我々は,GMRが,クラス増分学習問題に対して,非常に競合的な時間とメモリの複雑さで,最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2021-04-19T12:26:26Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。