論文の概要: Training-Free Generation of Protein Sequences from Small Family Alignments via Stochastic Attention
- arxiv url: http://arxiv.org/abs/2603.14717v1
- Date: Mon, 16 Mar 2026 01:42:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.984799
- Title: Training-Free Generation of Protein Sequences from Small Family Alignments via Stochastic Attention
- Title(参考訳): 確率的注意による小家族アライメントからのタンパク質配列の学習自由生成
- Authors: Jeffrey D. Varner,
- Abstract要約: 本稿では,タンパク質のアライメントをボルツマン分布として扱う,現代のホップフィールドエネルギーを扱う無訓練サンプル装置であるアテンション(SA)を提案する。
スコア関数は、トレーニング、事前トレーニングデータ、GPUを必要としないクローズドフォームのソフトマックスアテンション操作である。
SAは、低アミノ酸組成のばらつき、実質的な新規性、構造的妥当性を有する配列を生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most protein families have fewer than 100 known members, a regime where deep generative models overfit or collapse. We propose stochastic attention (SA), a training-free sampler that treats the modern Hopfield energy over a protein alignment as a Boltzmann distribution and draws samples via Langevin dynamics. The score function is a closed-form softmax attention operation requiring no training, no pretraining data, and no GPU, with cost linear in alignment size. Across eight Pfam families, SA generates sequences with low amino acid compositional divergence, substantial novelty, and structural plausibility confirmed by ESMFold and AlphaFold2. Generated sequences fold more faithfully to canonical family structures than natural members in six of eight families. Against profile HMMs, EvoDiff, and the MSA Transformer, which produce sequences that drift far outside the family, SA maintains 51 to 66 percent identity while remaining novel, in seconds on a laptop. The critical temperature governing generation is predicted from PCA dimensionality alone, enabling fully automatic operation. Controls confirm SA encodes correlated substitution patterns, not just per-position amino acid frequencies.
- Abstract(参考訳): ほとんどのタンパク質ファミリーは100人未満の既知のメンバーを持ち、深い生成モデルが過度に適合または崩壊する体制である。
本稿では,タンパク質アライメント上のホップフィールドエネルギーをボルツマン分布として処理し,ランゲヴィン力学を用いてサンプルを描画する学習自由サンプリング器である確率的注意(SA)を提案する。
スコア関数は、トレーニングを必要とせず、事前トレーニングデータもGPUも必要とせず、アライメントサイズでコストリニアなクローズドフォームのソフトマックスアテンション操作である。
8つのPfamファミリーにまたがって、SAは低アミノ酸組成の分岐、実質的な新規性、およびESMFoldとAlphaFold2によって確認された構造的妥当性を有する配列を生成する。
生成配列は8つのファミリーのうち6つの自然メンバーよりも正統的な家族構造に忠実に折り畳まれている。
プロファイルHMM、EvoDiff、MSAトランスフォーマーは、家族以外で流れているシーケンスを生成するが、SAは新規性を維持しながら、ノートパソコン上で数秒で51%から66%のアイデンティティを維持している。
臨界温度制御生成はPCA次元のみから予測され、完全に自動動作が可能である。
制御により、SAは置換のパターンをコードし、置換の頻度だけに留まらないことが確認される。
関連論文リスト
- Self Distillation Fine-Tuning of Protein Language Models Improves Versatility in Protein Design [61.2846583160056]
Supervised Fine-tuning (SFT) は、大規模言語モデルを特殊なドメインに適応するための標準的なアプローチである。
これは、高品質なアノテートされたデータは、自然言語よりもタンパク質の入手がはるかに難しいためである。
生成したタンパク質配列の忠実度,信頼性,新規性を改善するために設計された,PLMの高速SFTのための簡易かつ汎用的なレシピを提案する。
論文 参考訳(メタデータ) (2025-12-10T05:34:47Z) - Evolutionary Profiles for Protein Fitness Prediction [45.945064429964084]
EvoIFは、配列構造表現を進化的信号と融合させ、ログノードスコアリングのキャリブレーションされた確率を得る。
タンパク質Gym (217変異アッセイ; >2.5M変異株)について、EvoIFとそのMSA対応変異体は、トレーニング深度のわずか0.1%を使用しながら、最先端または競争的な性能を達成する。
論文 参考訳(メタデータ) (2025-10-08T17:46:02Z) - Lightweight MSA Design Advances Protein Folding From Evolutionary Embeddings [51.731441632457226]
マルチシークエンスアライメント(MSA)は低ホモロジーおよび孤児タンパク質で機能する。
我々は、下流の折り畳みをより良くサポートするMSAを生成する軽量なMSA設計フレームワークPLAMEを紹介する。
AlphaFold2の低ホモロジー/孤児ベンチマークでは、PLAMEは構造精度の最先端の改善を提供する。
論文 参考訳(メタデータ) (2025-06-17T04:11:30Z) - MSAGPT: Neural Prompting Protein Structure Prediction via MSA Generative Pre-Training [48.398329286769304]
マルチシークエンスアライメント(MSA)は、タンパク質ファミリーの進化的軌道を明らかにする上で重要な役割を担っている。
MSAGPTは、低MSA状態下でのMSA生成前訓練を通じてタンパク質構造予測を促進する新しいアプローチである。
論文 参考訳(メタデータ) (2024-06-08T04:23:57Z) - PoET: A generative model of protein families as sequences-of-sequences [5.05828899601167]
本稿では,関連タンパク質の集合を配列配列として生成する過程を学習するタンパク質ファミリー全体の生成モデルを提案する。
PoETは検索拡張言語モデルとして使用することができ、任意のタンパク質ファミリーに設定された任意の変更を生成し、スコア付けすることができる。
以上の結果から,PoETはタンパク質言語モデルと進化的配列モデルに優れており,全ての深さのタンパク質をまたいだ変異関数の予測が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-09T16:06:36Z) - Few Shot Protein Generation [4.7210697296108926]
マルチシークエンスアライメント(MSA)で表されるタンパク質ファミリーに条件付けられたタンパク質配列の生成モデルであるMSA-to-タンパク質トランスフォーマーについて述べる。
タンパク質ファミリーの生成モデルを学習するための既存のアプローチとは異なり、MSA-to-タンパク質トランスフォーマー条件は、多重配列アライメントの学習エンコーディングを直接生成する。
我々の生成的アプローチは、エピスタシスとインデルを正確にモデル化し、他のアプローチとは異なり、正確な推論と効率的なサンプリングを可能にします。
論文 参考訳(メタデータ) (2022-04-03T22:14:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。