論文の概要: Protein Autoregressive Modeling via Multiscale Structure Generation
- arxiv url: http://arxiv.org/abs/2602.04883v1
- Date: Wed, 04 Feb 2026 18:59:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.704752
- Title: Protein Autoregressive Modeling via Multiscale Structure Generation
- Title(参考訳): マルチスケール構造生成によるタンパク質自己回帰モデリング
- Authors: Yanru Qu, Cheng-Yen Hsieh, Zaixiang Zheng, Ge Liu, Quanquan Gu,
- Abstract要約: タンパク質自己回帰モデリング(PAR)は,タンパク質のバックボーン生成のための最初のマルチスケール自己回帰フレームワークである。
ノイズの多いコンテキスト学習とスケジュールサンプリングを採用し、堅牢なバックボーン生成を実現している。
非条件生成ベンチマークでは、PARはタンパク質の分布を効果的に学習し、高い設計品質のバックボーンを生成する。
- 参考スコア(独自算出の注目度): 51.92004892768298
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present protein autoregressive modeling (PAR), the first multi-scale autoregressive framework for protein backbone generation via coarse-to-fine next-scale prediction. Using the hierarchical nature of proteins, PAR generates structures that mimic sculpting a statue, forming a coarse topology and refining structural details over scales. To achieve this, PAR consists of three key components: (i) multi-scale downsampling operations that represent protein structures across multiple scales during training; (ii) an autoregressive transformer that encodes multi-scale information and produces conditional embeddings to guide structure generation; (iii) a flow-based backbone decoder that generates backbone atoms conditioned on these embeddings. Moreover, autoregressive models suffer from exposure bias, caused by the training and the generation procedure mismatch, and substantially degrades structure generation quality. We effectively alleviate this issue by adopting noisy context learning and scheduled sampling, enabling robust backbone generation. Notably, PAR exhibits strong zero-shot generalization, supporting flexible human-prompted conditional generation and motif scaffolding without requiring fine-tuning. On the unconditional generation benchmark, PAR effectively learns protein distributions and produces backbones of high design quality, and exhibits favorable scaling behavior. Together, these properties establish PAR as a promising framework for protein structure generation.
- Abstract(参考訳): 本稿では,タンパク質のバックボーン生成のためのマルチスケール自動回帰モデル(PAR)を提案する。
PARは、タンパク質の階層的な性質を利用して、彫像を模倣し、粗いトポロジーを形成し、スケールにわたって構造の詳細を精査する構造を生成する。
これを実現するため、PARは3つの重要なコンポーネントから構成される。
一 訓練中に複数のスケールにまたがるタンパク質構造を表すマルチスケールダウンサンプリング作業
二 マルチスケール情報を符号化し、構造生成を誘導するための条件埋め込みを生成する自己回帰変換器
三)これらの埋め込みに条件付きバックボーン原子を生成するフローベースバックボーンデコーダ。
さらに、自己回帰モデルは、トレーニングと生成手順のミスマッチに起因する露出バイアスに悩まされ、構造生成の品質を著しく低下させる。
我々は、ノイズの多い文脈学習とスケジュールサンプリングを採用し、堅牢なバックボーン生成を可能にすることにより、この問題を効果的に軽減する。
特にPARは強力なゼロショットの一般化を示し、微調整を必要とせず、柔軟な人為的な条件生成とモチーフの足場をサポートする。
非条件生成ベンチマークでは、PARはタンパク質の分布を効果的に学習し、高い設計品質のバックボーンを生成し、良好なスケーリング挙動を示す。
これらの性質は、PARをタンパク質構造生成の有望な枠組みとして確立する。
関連論文リスト
- Let Physics Guide Your Protein Flows: Topology-aware Unfolding and Generation [42.116704617358636]
拡散に基づく生成モデルはタンパク質の設計に革命をもたらし、新しいタンパク質の創出を可能にした。
タンパク質を二次構造に展開する物理的動機付けのない非線形ノイズ発生過程を古典物理学に基礎として導入する。
次に、このプロセスとSE(3)上のフローマッチングパラダイムを統合し、高い忠実度を持つタンパク質のバックボーンの不変分布をモデル化する。
論文 参考訳(メタデータ) (2025-09-29T18:31:22Z) - Guide your favorite protein sequence generative model [1.5914835340090132]
本稿では,タンパク質生成モデル構築のための原理的,汎用的な方法であるProteinGuideについて述べる。
本稿では,2つのタンパク質生成モデルであるProteinMPNNとESM3を誘導し,アミノ酸および構造トークン配列を生成することにより,ProteinGuideの適用性を示す。
また,逆折り畳みモデルを用いたProteinGuideと,アデニン塩基配列を高活性に設計する実験を行った。
論文 参考訳(メタデータ) (2025-05-07T21:56:50Z) - UniGenX: a unified generative foundation model that couples sequence, structure and function to accelerate scientific design across proteins, molecules and materials [62.72989417755985]
自然系における関数の統一生成モデルUniGenXを提案する。
UniGenXはシンボルトークンと数値トークンの混合ストリームとして異種入力を表す。
ドメイン間のファンクション・アウェア・ジェネレーションに対して、最先端または競合的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-09T16:43:07Z) - Multi-Scale Representation Learning for Protein Fitness Prediction [31.735234482320283]
これまでの手法は主に、巨大でラベルなしのタンパク質配列や構造データセットに基づいて訓練された自己教師型モデルに依存してきた。
本稿では,タンパク質の機能を統合する新しいマルチモーダル表現学習フレームワークであるSequence-Structure-Surface Fitness (S3F)モデルを紹介する。
提案手法は,タンパク質言語モデルからの配列表現と,タンパク質のバックボーンと詳細な表面トポロジーをコードするGeometric Vector Perceptronネットワークを組み合わせる。
論文 参考訳(メタデータ) (2024-12-02T04:28:10Z) - Sequence-Augmented SE(3)-Flow Matching For Conditional Protein Backbone Generation [55.93511121486321]
タンパク質構造生成のための新しいシーケンス条件付きフローマッチングモデルFoldFlow-2を紹介する。
我々は、以前の作業のPDBデータセットよりも桁違いに大きい新しいデータセットでFoldFlow-2を大規模にトレーニングします。
我々はFoldFlow-2が従来のタンパク質構造に基づく生成モデルよりも優れていることを実証的に観察した。
論文 参考訳(メタデータ) (2024-05-30T17:53:50Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering the Language of Protein [74.64101864289572]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - AlphaFold Distillation for Protein Design [25.190210443632825]
逆タンパク質の折りたたみはバイオエンジニアリングと薬物発見に不可欠である。
AlphaFoldのような前方の折りたたみモデルは、シーケンスから構造を正確に予測することで潜在的な解決策を提供する。
本稿では, 折り畳みモデルの信頼性測定値に対する知識蒸留を用いて, より高速かつエンドツーエンドの識別可能な蒸留モデルを作成することを提案する。
論文 参考訳(メタデータ) (2022-10-05T19:43:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。