論文の概要: Protein Autoregressive Modeling via Multiscale Structure Generation
- arxiv url: http://arxiv.org/abs/2602.04883v1
- Date: Wed, 04 Feb 2026 18:59:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.704752
- Title: Protein Autoregressive Modeling via Multiscale Structure Generation
- Title(参考訳): マルチスケール構造生成によるタンパク質自己回帰モデリング
- Authors: Yanru Qu, Cheng-Yen Hsieh, Zaixiang Zheng, Ge Liu, Quanquan Gu,
- Abstract要約: タンパク質自己回帰モデリング(PAR)は,タンパク質のバックボーン生成のための最初のマルチスケール自己回帰フレームワークである。
ノイズの多いコンテキスト学習とスケジュールサンプリングを採用し、堅牢なバックボーン生成を実現している。
非条件生成ベンチマークでは、PARはタンパク質の分布を効果的に学習し、高い設計品質のバックボーンを生成する。
- 参考スコア(独自算出の注目度): 51.92004892768298
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present protein autoregressive modeling (PAR), the first multi-scale autoregressive framework for protein backbone generation via coarse-to-fine next-scale prediction. Using the hierarchical nature of proteins, PAR generates structures that mimic sculpting a statue, forming a coarse topology and refining structural details over scales. To achieve this, PAR consists of three key components: (i) multi-scale downsampling operations that represent protein structures across multiple scales during training; (ii) an autoregressive transformer that encodes multi-scale information and produces conditional embeddings to guide structure generation; (iii) a flow-based backbone decoder that generates backbone atoms conditioned on these embeddings. Moreover, autoregressive models suffer from exposure bias, caused by the training and the generation procedure mismatch, and substantially degrades structure generation quality. We effectively alleviate this issue by adopting noisy context learning and scheduled sampling, enabling robust backbone generation. Notably, PAR exhibits strong zero-shot generalization, supporting flexible human-prompted conditional generation and motif scaffolding without requiring fine-tuning. On the unconditional generation benchmark, PAR effectively learns protein distributions and produces backbones of high design quality, and exhibits favorable scaling behavior. Together, these properties establish PAR as a promising framework for protein structure generation.
- Abstract(参考訳): 本稿では,タンパク質のバックボーン生成のためのマルチスケール自動回帰モデル(PAR)を提案する。
PARは、タンパク質の階層的な性質を利用して、彫像を模倣し、粗いトポロジーを形成し、スケールにわたって構造の詳細を精査する構造を生成する。
これを実現するため、PARは3つの重要なコンポーネントから構成される。
一 訓練中に複数のスケールにまたがるタンパク質構造を表すマルチスケールダウンサンプリング作業
二 マルチスケール情報を符号化し、構造生成を誘導するための条件埋め込みを生成する自己回帰変換器
三)これらの埋め込みに条件付きバックボーン原子を生成するフローベースバックボーンデコーダ。
さらに、自己回帰モデルは、トレーニングと生成手順のミスマッチに起因する露出バイアスに悩まされ、構造生成の品質を著しく低下させる。
我々は、ノイズの多い文脈学習とスケジュールサンプリングを採用し、堅牢なバックボーン生成を可能にすることにより、この問題を効果的に軽減する。
特にPARは強力なゼロショットの一般化を示し、微調整を必要とせず、柔軟な人為的な条件生成とモチーフの足場をサポートする。
非条件生成ベンチマークでは、PARはタンパク質の分布を効果的に学習し、高い設計品質のバックボーンを生成し、良好なスケーリング挙動を示す。
これらの性質は、PARをタンパク質構造生成の有望な枠組みとして確立する。
関連論文リスト
- Rigidity-Aware Geometric Pretraining for Protein Design and Conformational Ensembles [74.32932832937618]
幾何学的事前学習フレームワークであるtextbfRigidSSL$(textitRigidity-Aware Self-Supervised Learning$)を紹介した。
フェーズI(RigidSSL-Perturb)は、AlphaFoldタンパク質構造データベースから432K構造から、シミュレートされた摂動を持つ幾何学的先行を学習する。
フェーズII(RigidSSL-MD)は、1.3K分子動力学軌道上のこれらの表現を洗練し、物理的に現実的な遷移を捉える。
論文 参考訳(メタデータ) (2026-03-02T21:32:30Z) - SaDiT: Efficient Protein Backbone Design via Latent Structural Tokenization and Diffusion Transformers [50.18388227899971]
本稿では,SaProt TokenizationとDiffusion Transformer (DiT)アーキテクチャを統合することで,タンパク質のバックボーン生成を促進する新しいフレームワークであるSaDiTを提案する。
実験により、SaDiTはRFDiffusionやProteinaといった最先端モデルよりも計算速度と構造的生存性が優れていることが示された。
論文 参考訳(メタデータ) (2026-02-06T13:50:13Z) - Let Physics Guide Your Protein Flows: Topology-aware Unfolding and Generation [42.116704617358636]
拡散に基づく生成モデルはタンパク質の設計に革命をもたらし、新しいタンパク質の創出を可能にした。
タンパク質を二次構造に展開する物理的動機付けのない非線形ノイズ発生過程を古典物理学に基礎として導入する。
次に、このプロセスとSE(3)上のフローマッチングパラダイムを統合し、高い忠実度を持つタンパク質のバックボーンの不変分布をモデル化する。
論文 参考訳(メタデータ) (2025-09-29T18:31:22Z) - Guide your favorite protein sequence generative model [1.5914835340090132]
本稿では,タンパク質生成モデル構築のための原理的,汎用的な方法であるProteinGuideについて述べる。
本稿では,2つのタンパク質生成モデルであるProteinMPNNとESM3を誘導し,アミノ酸および構造トークン配列を生成することにより,ProteinGuideの適用性を示す。
また,逆折り畳みモデルを用いたProteinGuideと,アデニン塩基配列を高活性に設計する実験を行った。
論文 参考訳(メタデータ) (2025-05-07T21:56:50Z) - UniGenX: a unified generative foundation model that couples sequence, structure and function to accelerate scientific design across proteins, molecules and materials [62.72989417755985]
自然系における関数の統一生成モデルUniGenXを提案する。
UniGenXはシンボルトークンと数値トークンの混合ストリームとして異種入力を表す。
ドメイン間のファンクション・アウェア・ジェネレーションに対して、最先端または競合的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-09T16:43:07Z) - A Model-Centric Review of Deep Learning for Protein Design [0.0]
ディープラーニングはタンパク質設計を変換し、正確な構造予測、シーケンス最適化、de novoタンパク質生成を可能にした。
ProtGPT2、ProteinMPNN、RFdiffusionなどの生成モデルは、自然進化に基づく制限を超えてシーケンスとバックボーンの設計を可能にした。
最近では、ESM3を含む共同シーケンス構造共設計モデルが両方のモダリティを統一されたフレームワークに統合し、設計性が向上した。
論文 参考訳(メタデータ) (2025-02-26T14:31:21Z) - Multi-Scale Representation Learning for Protein Fitness Prediction [31.735234482320283]
これまでの手法は主に、巨大でラベルなしのタンパク質配列や構造データセットに基づいて訓練された自己教師型モデルに依存してきた。
本稿では,タンパク質の機能を統合する新しいマルチモーダル表現学習フレームワークであるSequence-Structure-Surface Fitness (S3F)モデルを紹介する。
提案手法は,タンパク質言語モデルからの配列表現と,タンパク質のバックボーンと詳細な表面トポロジーをコードするGeometric Vector Perceptronネットワークを組み合わせる。
論文 参考訳(メタデータ) (2024-12-02T04:28:10Z) - Sequence-Augmented SE(3)-Flow Matching For Conditional Protein Backbone Generation [55.93511121486321]
タンパク質構造生成のための新しいシーケンス条件付きフローマッチングモデルFoldFlow-2を紹介する。
我々は、以前の作業のPDBデータセットよりも桁違いに大きい新しいデータセットでFoldFlow-2を大規模にトレーニングします。
我々はFoldFlow-2が従来のタンパク質構造に基づく生成モデルよりも優れていることを実証的に観察した。
論文 参考訳(メタデータ) (2024-05-30T17:53:50Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering the Language of Protein [74.64101864289572]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - AlphaFold Distillation for Protein Design [25.190210443632825]
逆タンパク質の折りたたみはバイオエンジニアリングと薬物発見に不可欠である。
AlphaFoldのような前方の折りたたみモデルは、シーケンスから構造を正確に予測することで潜在的な解決策を提供する。
本稿では, 折り畳みモデルの信頼性測定値に対する知識蒸留を用いて, より高速かつエンドツーエンドの識別可能な蒸留モデルを作成することを提案する。
論文 参考訳(メタデータ) (2022-10-05T19:43:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。