論文の概要: HD-Prot: A Protein Language Model for Joint Sequence-Structure Modeling with Continuous Structure Tokens
- arxiv url: http://arxiv.org/abs/2512.15133v1
- Date: Wed, 17 Dec 2025 06:46:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.879781
- Title: HD-Prot: A Protein Language Model for Joint Sequence-Structure Modeling with Continuous Structure Tokens
- Title(参考訳): HD-Prot:連続構造トークンを用いた連続配列構造モデリングのためのタンパク質言語モデル
- Authors: Yi Zhou, Haohao Qu, Yunqing Liu, Shanru Lin, Le Song, Wenqi Fan,
- Abstract要約: HD-Protは、離散的なpLMの上に連続的に評価された拡散ヘッドを埋め込むハイブリッド拡散タンパク質言語モデルである。
非条件のシーケンス構造コジェネレーション、モチーフ・スキャフォールディング、タンパク質構造予測、逆フォールディングタスクにおいて競合性能を達成する。
- 参考スコア(独自算出の注目度): 33.896084921181476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Proteins inherently possess a consistent sequence-structure duality. The abundance of protein sequence data, which can be readily represented as discrete tokens, has driven fruitful developments in protein language models (pLMs). A key remaining challenge, however, is how to effectively integrate continuous structural knowledge into pLMs. Current methods often discretize protein structures to accommodate the language modeling framework, which inevitably results in the loss of fine-grained information and limits the performance potential of multimodal pLMs. In this paper, we argue that such concerns can be circumvented: a sequence-based pLM can be extended to incorporate the structure modality through continuous tokens, i.e., high-fidelity protein structure latents that avoid vector quantization. Specifically, we propose a hybrid diffusion protein language model, HD-Prot, which embeds a continuous-valued diffusion head atop a discrete pLM, enabling seamless operation with both discrete and continuous tokens for joint sequence-structure modeling. It captures inter-token dependencies across modalities through a unified absorbing diffusion process, and estimates per-token distributions via categorical prediction for sequences and continuous diffusion for structures. Extensive empirical results show that HD-Prot achieves competitive performance in unconditional sequence-structure co-generation, motif-scaffolding, protein structure prediction, and inverse folding tasks, performing on par with state-of-the-art multimodal pLMs despite being developed under limited computational resources. It highlights the viability of simultaneously estimating categorical and continuous distributions within a unified language model architecture, offering a promising alternative direction for multimodal pLMs.
- Abstract(参考訳): タンパク質は本質的に一貫した配列構造を持つ。
離散トークンとして容易に表現できるタンパク質配列データの豊富さは、タンパク質言語モデル(pLMs)における実りの多い発展を促している。
しかし、重要な課題は、連続的な構造的知識をpLMに効果的に統合する方法である。
現在の手法では、しばしばタンパク質構造を識別して言語モデリングの枠組みに適合させるが、それは必然的に細かい情報が失われ、マルチモーダルなpLMの性能が制限される。
本稿では, 連続トークンによる構造モダリティ, すなわち, ベクトル量子化を避けた高忠実度タンパク質構造ラテントを組み込むように, シーケンスベースのpLMを拡張できる。
具体的には、離散的なpLM上に連続的な拡散ヘッドを埋め込んだハイブリッド拡散タンパク質言語モデルHD-Protを提案する。
統一された吸収拡散過程を通じて、モーダル間の相互依存を捕捉し、配列の分類的予測と構造に対する連続拡散を通じて、トーケン分布を推定する。
実験結果から,HD-Protは,計算資源が限られているにもかかわらず,非条件のシーケンス構造コジェネレーション,モチーフ・スキャフォールディング,タンパク質構造予測,逆フォールディングタスクにおいて,最先端のマルチモーダルPLMと同等の性能を発揮することが示された。
統一言語モデルアーキテクチャにおけるカテゴリと連続的な分布を同時に推定する可能性を強調し、マルチモーダルPLMに対して有望な代替手段を提供する。
関連論文リスト
- Structure Language Models for Protein Conformation Generation [66.42864253026053]
伝統的な物理学に基づくシミュレーション手法は、しばしばサンプリング平衡整合に苦しむ。
深い生成モデルは、より効率的な代替としてタンパク質のコンホメーションを生成することを約束している。
本稿では,効率的なタンパク質コンホメーション生成のための新しいフレームワークとして構造言語モデリングを紹介する。
論文 参考訳(メタデータ) (2024-10-24T03:38:51Z) - DPLM-2: A Multimodal Diffusion Protein Language Model [75.98083311705182]
DPLM-2は, 離散拡散タンパク質言語モデル(DPLM)を拡張し, 配列と構造の両方に適合する多モーダルタンパク質基盤モデルである。
DPLM-2は、配列と構造、およびその限界と条件の結合分布を学習する。
実験によりDPLM-2は高度に互換性のあるアミノ酸配列とそれに対応する3D構造を同時に生成できることが示された。
論文 参考訳(メタデータ) (2024-10-17T17:20:24Z) - Fine-Tuning Discrete Diffusion Models via Reward Optimization with Applications to DNA and Protein Design [56.957070405026194]
拡散モデルにより生成された軌道全体を通して報酬の直接バックプロパゲーションを可能にするアルゴリズムを提案する。
DRAKESは自然に似ており、高い報酬をもたらすシーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-10-17T15:10:13Z) - Diffusion on language model encodings for protein sequence generation [0.5088559194265662]
DiMAは、タンパク質言語モデル表現で動作する潜伏拡散フレームワークである。
新規で高品質で多様なタンパク質配列を生産する。
これは、タンパク質ファミリーの生成、モチーフの足場と埋め込み、折りたたみ特異的な配列設計を含む条件付き生成タスクをサポートする。
論文 参考訳(メタデータ) (2024-03-06T14:15:20Z) - Diffusion Language Models Are Versatile Protein Learners [75.98083311705182]
本稿では,タンパク質配列の強い生成および予測能力を示す多目的なタンパク質言語モデルである拡散タンパク質言語モデル(DPLM)を紹介する。
まず, 自己制御型離散拡散確率フレームワークを用いて, 進化的タンパク質配列からのスケーラブルDPLMの事前学習を行った。
プレトレーニング後、DPLMは非条件生成のための構造的に可塑性で新規で多様なタンパク質配列を生成する能力を示す。
論文 参考訳(メタデータ) (2024-02-28T18:57:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。