論文の概要: Expanding functional protein sequence space using high entropy generative models
- arxiv url: http://arxiv.org/abs/2605.03578v1
- Date: Tue, 05 May 2026 09:45:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.882781
- Title: Expanding functional protein sequence space using high entropy generative models
- Title(参考訳): 高エントロピー生成モデルを用いた機能的タンパク質配列空間の拡張
- Authors: Roberto Netti, Emily Hinds, Francesco Calvanese, Rama Ranganathan, Martin Weigt, Francesco Zamponi,
- Abstract要約: 進化的シーケンスデータに基づいて訓練されたボルツマンマシンは、人工タンパク質のデータ駆動設計の強力なパラダイムとして登場した。
本稿では,モデルアーキテクチャ,特にパラメータ密度と実験性能の関係について検討する。
- 参考スコア(独自算出の注目度): 0.23090185577016445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Boltzmann Machines trained on evolutionary sequence data have emerged as a powerful paradigm for the data-driven design of artificial proteins. However, the relationship between model architecture, specifically parameter density, and experimental performance remains poorly understood. Here, we investigate this relationship using the Chorismate Mutase enzyme family as a model system. We compare standard fully connected Boltzmann Machines for Direct Coupling Analysis (bmDCA) with sparse models generated via progressive edge activation (eaDCA) and edge decimation (edDCA). We identify a maximum-entropy model (meDCA) along the decimation trajectory that represents an optimal balance between constraint satisfaction and the flexibility of the probability distribution. We synthesized and tested artificial sequences from all models using an in vivo complementation assay, finding that all architectures, regardless of sparsity, generate functional enzymes with high success rates, even at significant divergence from natural sequences. Despite this functional equivalence, we demonstrate that the meDCA model samples a viable sequence space that is more than fifteen orders of magnitude larger than its low-entropy counterparts. Furthermore, comparative analyses reveal that high-entropy models systematically minimize overfitting and better capture the local neutral spaces surrounding natural proteins. These findings suggest that while various models satisfying coevolutionary statistics can generate functional sequences, high-entropy Boltzmann Machines provide a superior representation of the underlying evolutionary fitness landscape.
- Abstract(参考訳): 進化的シーケンスデータに基づいて訓練されたボルツマンマシンは、人工タンパク質のデータ駆動設計の強力なパラダイムとして登場した。
しかし,モデルアーキテクチャ,特にパラメータ密度と実験性能の関係はよく分かっていない。
そこで本研究では,Chorismate Mutase酵素ファミリーをモデルシステムとして,この関係について検討する。
完全連結Boltzmann Machines for Direct Coupling Analysis (bmDCA)とプログレッシブエッジアクティベーション(eaDCA)とエッジデシメーション(edDCA)によるスパースモデルを比較した。
我々は,制約満足度と確率分布の柔軟性の最適バランスを表すデシメーション軌道に沿った最大エントロピーモデル(meDCA)を同定する。
生体内補体法を用いて全モデルから人工的配列を合成, 試験し, 自然配列から大きく分岐しても, 疎性によらず, 高い成功率で機能酵素を生成できることを調べた。
この関数同値性にもかかわらず、meDCAモデルは、その低エントロピーモデルよりも15桁以上大きい実効的なシーケンス空間をサンプリングすることを示した。
さらに、比較分析により、高エントロピーモデルは、過剰適合を体系的に最小化し、自然タンパク質を取り巻く局所的な中立空間をよりよく捉えていることが明らかとなった。
これらの結果は、共進化統計を満足する様々なモデルが機能的シーケンスを生成できる一方で、高エントロピーのボルツマンマシンは、基礎となる進化的フィットネス環境の優れた表現を提供することを示している。
関連論文リスト
- Generative Synthetic Data for Causal Inference: Pitfalls, Remedies, and Opportunities [4.144744763257738]
合成データは、プライバシ保護データリリース、拡張、シミュレーションのための有望なツールを提供する。
しかし、因果推論での使用には、予測的忠実性以上のものを保存する必要がある。
GANとLCMをベースとしたモデルを含む,完全生成型表層合成器は,強い合成・テスト・オン・リアルな性能を実現することができることを示す。
論文 参考訳(メタデータ) (2026-04-26T22:38:23Z) - Varying-Coefficient Mixture of Experts Model [0.0]
本稿では、ゲーティング関数とエキスパートモデルの両方におけるすべての係数効果をインデックス変数に沿って変化させることができるVarying-Coefficient Mixture of Experts (VCMoE)モデルを提案する。
本稿では, 胚性マウスにおける単一遺伝子発現のデータセットを用いて, 遺伝子Satb2とBcl11bの関連性の時間的ダイナミクスを特徴づけるVCMoEモデルを提案する。
論文 参考訳(メタデータ) (2026-01-05T00:23:30Z) - A COMPASS to Model Comparison and Simulation-Based Inference in Galactic Chemical Evolution [0.0]
本稿では,スコアベース拡散モデルと変圧器アーキテクチャを組み合わせた新しいシミュレーションベース推論フレームワークを提案する。
以上の結果から,現代のSBI法は宇宙物理シミュレータにおける不確かさを確実に抑制できることが示された。
論文 参考訳(メタデータ) (2025-07-07T14:45:41Z) - UniGenX: a unified generative foundation model that couples sequence, structure and function to accelerate scientific design across proteins, molecules and materials [62.72989417755985]
自然系における関数の統一生成モデルUniGenXを提案する。
UniGenXはシンボルトークンと数値トークンの混合ストリームとして異種入力を表す。
ドメイン間のファンクション・アウェア・ジェネレーションに対して、最先端または競合的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-09T16:43:07Z) - Fine-Tuning Discrete Diffusion Models via Reward Optimization with Applications to DNA and Protein Design [56.957070405026194]
拡散モデルにより生成された軌道全体を通して報酬の直接バックプロパゲーションを可能にするアルゴリズムを提案する。
DRAKESは自然に似ており、高い報酬をもたらすシーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-10-17T15:10:13Z) - Synthetic location trajectory generation using categorical diffusion
models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。
本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:57:39Z) - Ophiuchus: Scalable Modeling of Protein Structures through Hierarchical
Coarse-graining SO(3)-Equivariant Autoencoders [1.8835495377767553]
天然タンパク質の3次元ネイティブ状態は、繰り返しおよび階層的なパターンを示す。
従来のグラフに基づくタンパク質構造のモデリングは、単一の微細な解像度でしか動作しないことが多い。
オフィチュス(Ophiuchus)は、全原子タンパク質構造を効率的に操作するSO(3)等価な粗粒化モデルである。
論文 参考訳(メタデータ) (2023-10-04T01:01:11Z) - Geometric Neural Diffusion Processes [55.891428654434634]
拡散モデルの枠組みを拡張して、無限次元モデリングに一連の幾何学的先行を組み込む。
これらの条件で、生成関数モデルが同じ対称性を持つことを示す。
論文 参考訳(メタデータ) (2023-07-11T16:51:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。