論文の概要: A Diffusion Model to Shrink Proteins While Maintaining Their Function
- arxiv url: http://arxiv.org/abs/2511.07390v1
- Date: Mon, 10 Nov 2025 18:46:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.418639
- Title: A Diffusion Model to Shrink Proteins While Maintaining Their Function
- Title(参考訳): タンパク質の機能維持における拡散モデル
- Authors: Ethan Baron, Alan N. Amin, Ruben Weitzman, Debora Marks, Andrew Gordon Wilson,
- Abstract要約: SCISORは、配列から文字を削除し、自然界で見られるものに似たタンパク質サンプルを生成する新しい離散拡散モデルである。
SCISORは、自然配列にランダムな挿入を追加するフォワードノイズ発生過程を逆転するようにデノイズを訓練する。
評価において、SCISORはProteinGymに対する欠失の機能的効果の最先端の予測を達成している。
- 参考スコア(独自算出の注目度): 35.556730321134275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many proteins useful in modern medicine or bioengineering are challenging to make in the lab, fuse with other proteins in cells, or deliver to tissues in the body, because their sequences are too long. Shortening these sequences typically involves costly, time-consuming experimental campaigns. Ideally, we could instead use modern models of massive databases of sequences from nature to learn how to propose shrunken proteins that resemble sequences found in nature. Unfortunately, these models struggle to efficiently search the combinatorial space of all deletions, and are not trained with inductive biases to learn how to delete. To address this gap, we propose SCISOR, a novel discrete diffusion model that deletes letters from sequences to generate protein samples that resemble those found in nature. To do so, SCISOR trains a de-noiser to reverse a forward noising process that adds random insertions to natural sequences. As a generative model, SCISOR fits evolutionary sequence data competitively with previous large models. In evaluation, SCISOR achieves state-of-the-art predictions of the functional effects of deletions on ProteinGym. Finally, we use the SCISOR de-noiser to shrink long protein sequences, and show that its suggested deletions result in significantly more realistic proteins and more often preserve functional motifs than previous models of evolutionary sequences.
- Abstract(参考訳): 現代の医学やバイオエンジニアリングに有用なタンパク質の多くは、その配列が長すぎるため、研究室で、他のタンパク質と細胞に融合したり、体内の組織に供給したりするのは難しい。
これらのシーケンスを短縮するには、通常、費用がかかる、時間を要する実験的なキャンペーンが必要になる。
理想的には、自然界にある配列に似た破砕されたタンパク質をどうやって提案するかを学ぶために、自然界の大量の配列データベースの現代的なモデルを使うことができます。
残念なことに、これらのモデルは、すべての削除の組合せ空間を効率的に探索するのに苦労し、削除の方法を学ぶために誘導バイアスで訓練されていない。
このギャップに対処するために、SCISORを提案する。SCISORは、配列から文字を削除し、自然界で見られるものに似たタンパク質サンプルを生成する、新しい離散拡散モデルである。
そのため、SCISORはデノイザーを訓練し、自然配列にランダムな挿入を加えるフォワードノイズ発生過程を逆転させる。
生成モデルとして、SCISORは進化的シーケンスデータを以前の大きなモデルと競合的に適合させる。
評価において、SCISORはProteinGymに対する欠失の機能的効果の最先端の予測を達成している。
最後に、長いタンパク質配列を縮小するためにSCISOR de-noiserを使用し、その削除提案により、より現実的なタンパク質が生成され、進化配列の以前のモデルよりも機能的なモチーフが保存されることを示す。
関連論文リスト
- SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - Fine-Tuning Discrete Diffusion Models via Reward Optimization with Applications to DNA and Protein Design [56.957070405026194]
拡散モデルにより生成された軌道全体を通して報酬の直接バックプロパゲーションを可能にするアルゴリズムを提案する。
DRAKESは自然に似ており、高い報酬をもたらすシーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-10-17T15:10:13Z) - Predicting protein variants with equivariant graph neural networks [0.0]
我々は,同変グラフニューラルネットワーク(EGNN)と配列に基づくアプローチによる有望なアミノ酸変異の同定能力の比較を行った。
提案する構造的アプローチは, より少ない分子で訓練しながら, 配列に基づくアプローチと競合する性能を実現する。
論文 参考訳(メタデータ) (2023-06-21T12:44:52Z) - A Latent Diffusion Model for Protein Structure Generation [50.74232632854264]
本稿では,タンパク質モデリングの複雑さを低減できる潜在拡散モデルを提案する。
提案手法は, 高い設計性と効率性を有する新規なタンパク質のバックボーン構造を効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-05-06T19:10:19Z) - Reprogramming Pretrained Language Models for Antibody Sequence Infilling [72.13295049594585]
抗体の計算設計には、構造的一貫性を維持しながら、新規で多様な配列を生成することが含まれる。
近年のディープラーニングモデルでは優れた結果が得られたが、既知の抗体配列/構造対の数が限られているため、性能が劣化することが多い。
これは、ソース言語でトレーニング済みのモデルを再利用して、異なる言語で、データが少ないタスクに適応するものです。
論文 参考訳(メタデータ) (2022-10-05T20:44:55Z) - ProGen2: Exploring the Boundaries of Protein Language Models [15.82416400246896]
タンパク質言語モデルであるProGen2を導入し、最大6.4Bのパラメータに拡張する。
ProGen2モデルは、観察された進化系列の分布を捉える際に、最先端の性能を示す。
モデルのサイズが大きくなり, タンパク質配列の数が多くなりつつあるため, タンパク質配列モデルに提供されるデータ分布に重点を置く必要があることが示唆された。
論文 参考訳(メタデータ) (2022-06-27T17:55:02Z) - Modeling Protein Using Large-scale Pretrain Language Model [12.568452480689578]
学際的な研究者は、大規模な生物学的データセットをモデル化するためにディープラーニング手法を活用し始めている。
自然言語とタンパク質配列の類似性から着想を得て,進化的タンパク質配列をモデル化するために大規模言語モデルを用いた。
本モデルでは,進化規模個別配列の事前学習から進化情報を正確に捉えることができる。
論文 参考訳(メタデータ) (2021-08-17T04:13:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。