論文の概要: Reinforcement-guided generative protein language models enable de novo design of highly diverse AAV capsids
- arxiv url: http://arxiv.org/abs/2603.19473v1
- Date: Thu, 19 Mar 2026 21:11:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:38.890043
- Title: Reinforcement-guided generative protein language models enable de novo design of highly diverse AAV capsids
- Title(参考訳): 強化誘導型生成タンパク質言語モデルにより、高度に多様なAAVカプシドのデ・ノボ設計が可能となる
- Authors: Lucas Ferraz, Ana F. Rodrigues, Pedro Giesteira Cotovio, Mafalda Ventura, Gabriela Silva, Ana Sofia Coroadinha, Miguel Machuqueiro, Catia Pesquita,
- Abstract要約: アデノ関連ウイルス(AAV)ベクターは遺伝子治療に広く用いられている。
AAVバイオエンジニアリングにおける中心的な課題は、巨大なシーケンスデザイン空間である。
タンパク質言語モデルと強化学習に基づく生成設計フレームワークを開発した。
- 参考スコア(独自算出の注目度): 0.3372751145910977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adeno-associated viral (AAV) vectors are widely used delivery platforms in gene therapy, and the design of improved capsids is key to expanding their therapeutic potential. A central challenge in AAV bioengineering, as in protein design more broadly, is the vast sequence design space relative to the scale of feasible experimental screening. Machine-guided generative approaches provide a powerful means of navigating this landscape and proposing novel protein sequences that satisfy functional constraints. Here, we develop a generative design framework based on protein language models and reinforcement learning to generate highly novel yet functionally plausible AAV capsids. A pretrained model was fine-tuned on experimentally validated capsid sequences to learn patterns associated with viability. Reinforcement learning was then used to guide sequence generation, with a reward function that jointly promoted predicted viability and sequence novelty, thereby enabling exploration beyond regions represented in the training data. Comparative analyses showed that fine-tuning alone produces sequences with high predicted viability but remains biased toward the training distribution, whereas reinforcement learining-guided generation reaches more distant regions of sequence space while maintaining high predicted viability. Finally, we propose a candidate selection strategy that integrates predicted viability, sequence novelty, and biophysical properties to prioritize variants for downstream evaluation. This work establishes a framework for the generative exploration of protein sequence space and advances the application of generative protein language models to AAV bioengineering.
- Abstract(参考訳): アデノ関連ウイルス(AAV)ベクターは、遺伝子治療におけるデリバリープラットフォームとして広く用いられている。
AAVバイオエンジニアリングにおける中心的な課題は、より広くタンパク質の設計において、実現可能な実験スクリーニングの規模に対する広大なシーケンス設計空間である。
機械誘導型生成アプローチは、この景観をナビゲートし、機能的制約を満たす新しいタンパク質配列を提案する強力な手段を提供する。
そこで我々は,タンパク質言語モデルと強化学習に基づく生成設計フレームワークを開発し,高度に斬新で機能的なAVキャプシドを生成する。
実験により検証されたカプシド配列に事前学習したモデルを用いて、生存性に関連するパターンを学習した。
その後、強化学習を用いてシーケンス生成をガイドし、予測された生存性とシーケンスの新規性を共同で促進することで、トレーニングデータに表される領域を越えて探索を可能にする。
比較分析の結果, 微調整だけでは高い予測可能性を持つシーケンスを生成するが, トレーニング分布に偏ったままであり, 強化学習誘導世代は高い予測可能性を維持しつつ, より離れたシーケンス領域に到達していることがわかった。
最後に, 予測可能性, シーケンスの新規性, 生物物理特性を統合した候補選択戦略を提案し, 下流評価のための変種を優先順位付けする。
この研究は、タンパク質配列空間の生成的探索の枠組みを確立し、生成的タンパク質言語モデルのAAVバイオエンジニアリングへの応用を進展させる。
関連論文リスト
- AAVGen: Precision Engineering of Adeno-associated Viral Capsids for Renal Selective Targeting [0.0]
AAVGenは、マルチトレイプロファイルが強化されたAAVキャプシドのデノボ設計のための生成人工知能フレームワークである。
AAVGenは、タンパク質言語モデル(PLM)と、教師付き微調整(SFT)と、グループシーケンスポリシー最適化(GSPO)と呼ばれる強化学習技術を統合する。
AAVGenは新規なVP1タンパク質配列の多種多様なライブラリーを産生することを示した。
論文 参考訳(メタデータ) (2026-02-21T17:46:34Z) - Boosting In-Silicon Directed Evolution with Fine-Tuned Protein Language Model and Tree Search [67.15159962819979]
大規模言語モデルの革新的パラダイムを活用することにより,タンパク質配列を最適化する新しいフレームワークであるAlphaDEを提案する。
第一に、AlphaDEファインチューンは、タンパク質配列のマスク言語モデルを用いて、関心のあるタンパク質クラスの進化的妥当性を活性化するタンパク質言語モデルである。
第二に、AlphaDEはモンテカルロ木探索に基づくテスト時間推論を導入し、微調整されたタンパク質言語モデルからの進化誘導でタンパク質を効果的に進化させる。
論文 参考訳(メタデータ) (2025-11-13T03:00:52Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - Reprogramming Pretrained Language Models for Antibody Sequence Infilling [72.13295049594585]
抗体の計算設計には、構造的一貫性を維持しながら、新規で多様な配列を生成することが含まれる。
近年のディープラーニングモデルでは優れた結果が得られたが、既知の抗体配列/構造対の数が限られているため、性能が劣化することが多い。
これは、ソース言語でトレーニング済みのモデルを再利用して、異なる言語で、データが少ないタスクに適応するものです。
論文 参考訳(メタデータ) (2022-10-05T20:44:55Z) - Unsupervisedly Prompting AlphaFold2 for Few-Shot Learning of Accurate
Folding Landscape and Protein Structure Prediction [28.630603355510324]
そこで我々は,メタ生成モデルであるEvoGenを提案し,貧弱なMSAターゲットに対するAlphaFold2のアンダーパフォーマンスを改善する。
EvoGenは、キャリブレーションまたは実質的に生成されたホモログシーケンスでモデルにプロンプトすることで、AlphaFold2を低データで正確に折り畳むのに役立つ。
論文 参考訳(メタデータ) (2022-08-20T10:23:17Z) - ODBO: Bayesian Optimization with Search Space Prescreening for Directed Protein Evolution [18.726398852721204]
タンパク質指向進化のための効率的で実験的な設計指向のクローズドループ最適化フレームワークを提案する。
ODBOは、新しい低次元タンパク質エンコーディング戦略と、外乱検出による検索空間事前スクリーニングによって強化されたベイズ最適化を組み合わせている。
本研究は, タンパク質指向進化実験を4回実施し, 興味のある変異を見出すためのフレームワークの能力を実証した。
論文 参考訳(メタデータ) (2022-05-19T13:21:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。