論文の概要: ProteinAE: Protein Diffusion Autoencoders for Structure Encoding
- arxiv url: http://arxiv.org/abs/2510.10634v1
- Date: Sun, 12 Oct 2025 14:30:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.04339
- Title: ProteinAE: Protein Diffusion Autoencoders for Structure Encoding
- Title(参考訳): タンパク質AE:構造エンコーディングのためのタンパク質拡散オートエンコーダ
- Authors: Shaoning Li, Le Zhuo, Yusong Wang, Mingyu Li, Xinheng He, Fandi Wu, Hongsheng Li, Pheng-Ann Heng,
- Abstract要約: 本稿では,新規かつ合理化されたタンパク質拡散オートエンコーダであるProteinAEを紹介する。
プロテインAEは、タンパク質のバックボーン座標を直接E(3)から連続的でコンパクトな潜在空間にマッピングする。
本研究では,既存のオートエンコーダよりも優れた,最先端の再構築品質を実現することを実証する。
- 参考スコア(独自算出の注目度): 64.77182442408254
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing effective representations of protein structures is essential for advancing protein science, particularly for protein generative modeling. Current approaches often grapple with the complexities of the SE(3) manifold, rely on discrete tokenization, or the need for multiple training objectives, all of which can hinder the model optimization and generalization. We introduce ProteinAE, a novel and streamlined protein diffusion autoencoder designed to overcome these challenges by directly mapping protein backbone coordinates from E(3) into a continuous, compact latent space. ProteinAE employs a non-equivariant Diffusion Transformer with a bottleneck design for efficient compression and is trained end-to-end with a single flow matching objective, substantially simplifying the optimization pipeline. We demonstrate that ProteinAE achieves state-of-the-art reconstruction quality, outperforming existing autoencoders. The resulting latent space serves as a powerful foundation for a latent diffusion model that bypasses the need for explicit equivariance. This enables efficient, high-quality structure generation that is competitive with leading structure-based approaches and significantly outperforms prior latent-based methods. Code is available at https://github.com/OnlyLoveKFC/ProteinAE_v1.
- Abstract(参考訳): タンパク質構造を効果的に表現することは、タンパク質科学、特にタンパク質生成モデルの発展に不可欠である。
現在のアプローチはSE(3)多様体の複雑さと相反することが多く、離散的なトークン化や、モデルの最適化や一般化を妨げる複数の訓練目的の必要性に頼っている。
本稿では,タンパク質のバックボーン座標を直接E(3)から連続的でコンパクトな潜伏空間にマッピングすることで,これらの課題を克服するために設計された新規かつ合理化されたタンパク質拡散オートエンコーダであるProteinAEを紹介する。
ProteinAEは、効率のよい圧縮のためにボトルネック設計の非等価拡散変換器を採用し、単一フローマッチング目的のエンドツーエンドで訓練され、最適化パイプラインを大幅に単純化する。
本研究では,既存のオートエンコーダよりも優れた,最先端の再構築品質を実現することを実証する。
結果として生じる潜在空間は、明示的同値性の必要性を回避できる潜在拡散モデルの強力な基礎となる。
これにより、先行する構造ベースのアプローチと競合する効率的で高品質な構造生成が可能になり、従来の潜在的手法よりも大幅に優れる。
コードはhttps://github.com/OnlyLoveKFC/ProteinAE_v1.comから入手できる。
関連論文リスト
- Flow Autoencoders are Effective Protein Tokenizers [0.0]
本稿では,タンパク質構造のトークン化と生成のためのフローベーストークン化ツールであるKanziを紹介する。
Kanziは、フローマッチング損失でトレーニングされた拡散オートエンコーダで構成される。
これらの変化は、既存のトークン化器よりも優れたパラメータ効率モデルの訓練を安定化させることが判明した。
論文 参考訳(メタデータ) (2025-09-30T23:29:39Z) - Structure Language Models for Protein Conformation Generation [66.42864253026053]
伝統的な物理学に基づくシミュレーション手法は、しばしばサンプリング平衡整合に苦しむ。
深い生成モデルは、より効率的な代替としてタンパク質のコンホメーションを生成することを約束している。
本稿では,効率的なタンパク質コンホメーション生成のための新しいフレームワークとして構造言語モデリングを紹介する。
論文 参考訳(メタデータ) (2024-10-24T03:38:51Z) - Learning the Language of Protein Structure [8.364087723533537]
本稿では,タンパク質構造を離散表現に効果的にトークン化するベクトル量子化オートエンコーダを用いたアプローチを提案する。
学習した表現の有効性を示すために、コードブック上でトレーニングされた単純なGPTモデルにより、新規で多様性があり、設計可能なタンパク質構造を生成することができることを示す。
論文 参考訳(メタデータ) (2024-05-24T16:03:47Z) - Target-aware Variational Auto-encoders for Ligand Generation with
Multimodal Protein Representation Learning [2.01243755755303]
ターゲット認識型自動エンコーダであるTargetVAEを導入し、任意のタンパク質標的に対する高い結合親和性で生成する。
これは、タンパク質の異なる表現を単一のモデルに統一する最初の試みであり、これは我々がタンパク質マルチモーダルネットワーク(PMN)と呼ぶ。
論文 参考訳(メタデータ) (2023-08-02T12:08:17Z) - A Latent Diffusion Model for Protein Structure Generation [50.74232632854264]
本稿では,タンパク質モデリングの複雑さを低減できる潜在拡散モデルを提案する。
提案手法は, 高い設計性と効率性を有する新規なタンパク質のバックボーン構造を効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-05-06T19:10:19Z) - Protein Sequence and Structure Co-Design with Equivariant Translation [19.816174223173494]
既存のアプローチは自己回帰モデルまたは拡散モデルを用いてタンパク質配列と構造の両方を生成する。
本稿では,タンパク質配列と構造共設計が可能な新しいアプローチを提案する。
我々のモデルは、幾何学的制約と文脈特徴からの相互作用を推論する三角法を意識したエンコーダで構成されている。
全てのタンパク質アミノ酸は翻訳工程で1ショットずつ更新され、推論プロセスが大幅に加速される。
論文 参考訳(メタデータ) (2022-10-17T06:00:12Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z) - EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based
Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。
EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。