論文の概要: Co-Generative De Novo Functional Protein Design
- arxiv url: http://arxiv.org/abs/2605.00948v1
- Date: Fri, 01 May 2026 10:39:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.505274
- Title: Co-Generative De Novo Functional Protein Design
- Title(参考訳): 共生型デノボ機能タンパク質設計
- Authors: Xinrui Chen, Yizhen Luo, Siqi Fan, Zaiqing Nie,
- Abstract要約: De novo関数タンパク質の設計は、進化的テンプレートに頼ることなく、特定の生化学的機能を実現する配列を生成することを目的としている。
既存のアプローチでは、直接関数対シーケンスマッピングまたは分離された構造系列生成戦略が採用されている。
我々は,デノボ機能タンパク質設計のための共生成タンパク質言語モデルであるCodeFPを提案し,配列と構造トークンを同時にデコードする。
- 参考スコア(独自算出の注目度): 12.461287904565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: De novo functional protein design aims to generate protein sequences that realize specified biochemical functions without relying on evolutionary templates, enabling broad applications in biotechnology and medicine. Existing approaches adopt either direct function-to-sequence mapping or decoupled structure-sequence generation strategies but often fail to achieve functionality and foldability simultaneously. To address this, we propose CodeFP, a Co-generative protein language model for de novo Functional Protein design that simultaneously decodes sequence and structure tokens, thereby enabling superior simultaneous realization of functionality and foldability. CodeFP utilizes functional local structures to enrich functional semantic encodings, overcoming the suboptimal translation of flat encodings into structure tokens, while introducing auxiliary functional supervision to alleviate training ambiguity stemming from the one-to-many structure-to-token mapping. Extensive experiments show that CodeFP consistently achieves average improvements of 6.1% in functional consistency and 3.2% in foldability over the strongest baseline.
- Abstract(参考訳): デノボ機能タンパク質の設計は、進化的テンプレートに頼ることなく、特定の生化学的機能を実現するタンパク質配列を生成することを目的としており、バイオテクノロジーや医学の幅広い応用を可能にしている。
既存のアプローチでは、直接関数列マッピングまたは分離された構造列生成戦略が採用されているが、機能と折りたたみ性は同時に達成できないことが多い。
そこで本研究では,デノボ機能タンパク質設計のための共同生成タンパク質言語モデルであるCodeFPを提案する。
CodeFPは機能的局所構造を利用して機能的セマンティックエンコーディングを強化し、フラットエンコーディングを構造トークンに最適に翻訳する一方で、ワン・ツー・マイン構造・ツー・トケンマッピングから生じるあいまいさを緩和する補助的な機能的インスペクションを導入している。
大規模な実験により、CodeFPは最強のベースラインよりも機能一貫性が6.1%、折りたたみ性が3.2%の平均的な改善を実現している。
関連論文リスト
- SaDiT: Efficient Protein Backbone Design via Latent Structural Tokenization and Diffusion Transformers [50.18388227899971]
本稿では,SaProt TokenizationとDiffusion Transformer (DiT)アーキテクチャを統合することで,タンパク質のバックボーン生成を促進する新しいフレームワークであるSaDiTを提案する。
実験により、SaDiTはRFDiffusionやProteinaといった最先端モデルよりも計算速度と構造的生存性が優れていることが示された。
論文 参考訳(メタデータ) (2026-02-06T13:50:13Z) - Swarms of Large Language Model Agents for Protein Sequence Design with Experimental Validation [0.9332987715848714]
大規模言語モデル(LLM)エージェントは並列に動作し、それぞれ特定の残基位置に割り当てられる。
この位置的、非集中的な調整は、多様で明確に定義されたシーケンスの創発的設計を可能にする。
提案手法は,数時間以内に効率よく客観的な設計を実現し,微調整や特殊訓練を行なわずに完全に動作させる。
論文 参考訳(メタデータ) (2025-11-27T10:42:52Z) - ProteinAE: Protein Diffusion Autoencoders for Structure Encoding [64.77182442408254]
本稿では,新規かつ合理化されたタンパク質拡散オートエンコーダであるProteinAEを紹介する。
プロテインAEは、タンパク質のバックボーン座標を直接E(3)から連続的でコンパクトな潜在空間にマッピングする。
本研究では,既存のオートエンコーダよりも優れた,最先端の再構築品質を実現することを実証する。
論文 参考訳(メタデータ) (2025-10-12T14:30:32Z) - BioBlobs: Differentiable Graph Partitioning for Protein Representation Learning [3.6641231031729173]
動的に構造を柔軟に大きめのサブ構造(「ブロブ」)に分割することで、タンパク質を表現するプラグアンドプレイモジュールであるBioBlobsを紹介した。
得られたブロブは共有および解釈可能なコードブックに量子化され、タンパク質の埋め込みを計算するのに使用される機能関連タンパク質のサブ構造を個別に語彙化する。
また,BioBlobsの表現により,GVP-GNNなどの広く使われているタンパク質エンコーダの性能が,PRLタスクで向上することを示す。
論文 参考訳(メタデータ) (2025-10-02T03:25:02Z) - CFP-Gen: Combinatorial Functional Protein Generation via Diffusion Language Models [16.17372298740389]
CFP-Gen(CFP-Gen)は、結合型タンパク質遺伝子のための新しい拡散言語モデルである。
マルチモーダル条件を機能的、シーケンス的、構造的制約と統合することにより、de novoタンパク質の設計を可能にする。
論文 参考訳(メタデータ) (2025-05-28T21:05:46Z) - DS-ProGen: A Dual-Structure Deep Language Model for Functional Protein Design [21.43301218674909]
逆タンパク質フォールディング(英: inverse protein Folding)は、タンパク質設計の分野における重要なサブタスクである。
本稿では,機能的タンパク質設計のための二重構造深層言語モデルDS-ProGenを提案する。
バックボーン座標と表面化学および幾何学的記述子を次のアミノ酸予測パラダイムに組み込むことで、DS-ProGenは機能的に関連し、構造的に安定な配列を生成することができる。
論文 参考訳(メタデータ) (2025-05-18T18:08:35Z) - DPLM-2: A Multimodal Diffusion Protein Language Model [75.98083311705182]
DPLM-2は, 離散拡散タンパク質言語モデル(DPLM)を拡張し, 配列と構造の両方に適合する多モーダルタンパク質基盤モデルである。
DPLM-2は、配列と構造、およびその限界と条件の結合分布を学習する。
実験によりDPLM-2は高度に互換性のあるアミノ酸配列とそれに対応する3D構造を同時に生成できることが示された。
論文 参考訳(メタデータ) (2024-10-17T17:20:24Z) - Sequence-Augmented SE(3)-Flow Matching For Conditional Protein Backbone Generation [55.93511121486321]
タンパク質構造生成のための新しいシーケンス条件付きフローマッチングモデルFoldFlow-2を紹介する。
我々は、以前の作業のPDBデータセットよりも桁違いに大きい新しいデータセットでFoldFlow-2を大規模にトレーニングします。
我々はFoldFlow-2が従来のタンパク質構造に基づく生成モデルよりも優れていることを実証的に観察した。
論文 参考訳(メタデータ) (2024-05-30T17:53:50Z) - Protein Sequence and Structure Co-Design with Equivariant Translation [19.816174223173494]
既存のアプローチは自己回帰モデルまたは拡散モデルを用いてタンパク質配列と構造の両方を生成する。
本稿では,タンパク質配列と構造共設計が可能な新しいアプローチを提案する。
我々のモデルは、幾何学的制約と文脈特徴からの相互作用を推論する三角法を意識したエンコーダで構成されている。
全てのタンパク質アミノ酸は翻訳工程で1ショットずつ更新され、推論プロセスが大幅に加速される。
論文 参考訳(メタデータ) (2022-10-17T06:00:12Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。