論文の概要: HD-Prot: A Protein Language Model for Joint Sequence-Structure Modeling with Continuous Structure Tokens
- arxiv url: http://arxiv.org/abs/2512.15133v1
- Date: Wed, 17 Dec 2025 06:46:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.879781
- Title: HD-Prot: A Protein Language Model for Joint Sequence-Structure Modeling with Continuous Structure Tokens
- Title(参考訳): HD-Prot:連続構造トークンを用いた連続配列構造モデリングのためのタンパク質言語モデル
- Authors: Yi Zhou, Haohao Qu, Yunqing Liu, Shanru Lin, Le Song, Wenqi Fan,
- Abstract要約: HD-Protは、離散的なpLMの上に連続的に評価された拡散ヘッドを埋め込むハイブリッド拡散タンパク質言語モデルである。
非条件のシーケンス構造コジェネレーション、モチーフ・スキャフォールディング、タンパク質構造予測、逆フォールディングタスクにおいて競合性能を達成する。
- 参考スコア(独自算出の注目度): 33.896084921181476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Proteins inherently possess a consistent sequence-structure duality. The abundance of protein sequence data, which can be readily represented as discrete tokens, has driven fruitful developments in protein language models (pLMs). A key remaining challenge, however, is how to effectively integrate continuous structural knowledge into pLMs. Current methods often discretize protein structures to accommodate the language modeling framework, which inevitably results in the loss of fine-grained information and limits the performance potential of multimodal pLMs. In this paper, we argue that such concerns can be circumvented: a sequence-based pLM can be extended to incorporate the structure modality through continuous tokens, i.e., high-fidelity protein structure latents that avoid vector quantization. Specifically, we propose a hybrid diffusion protein language model, HD-Prot, which embeds a continuous-valued diffusion head atop a discrete pLM, enabling seamless operation with both discrete and continuous tokens for joint sequence-structure modeling. It captures inter-token dependencies across modalities through a unified absorbing diffusion process, and estimates per-token distributions via categorical prediction for sequences and continuous diffusion for structures. Extensive empirical results show that HD-Prot achieves competitive performance in unconditional sequence-structure co-generation, motif-scaffolding, protein structure prediction, and inverse folding tasks, performing on par with state-of-the-art multimodal pLMs despite being developed under limited computational resources. It highlights the viability of simultaneously estimating categorical and continuous distributions within a unified language model architecture, offering a promising alternative direction for multimodal pLMs.
- Abstract(参考訳): タンパク質は本質的に一貫した配列構造を持つ。
離散トークンとして容易に表現できるタンパク質配列データの豊富さは、タンパク質言語モデル(pLMs)における実りの多い発展を促している。
しかし、重要な課題は、連続的な構造的知識をpLMに効果的に統合する方法である。
現在の手法では、しばしばタンパク質構造を識別して言語モデリングの枠組みに適合させるが、それは必然的に細かい情報が失われ、マルチモーダルなpLMの性能が制限される。
本稿では, 連続トークンによる構造モダリティ, すなわち, ベクトル量子化を避けた高忠実度タンパク質構造ラテントを組み込むように, シーケンスベースのpLMを拡張できる。
具体的には、離散的なpLM上に連続的な拡散ヘッドを埋め込んだハイブリッド拡散タンパク質言語モデルHD-Protを提案する。
統一された吸収拡散過程を通じて、モーダル間の相互依存を捕捉し、配列の分類的予測と構造に対する連続拡散を通じて、トーケン分布を推定する。
実験結果から,HD-Protは,計算資源が限られているにもかかわらず,非条件のシーケンス構造コジェネレーション,モチーフ・スキャフォールディング,タンパク質構造予測,逆フォールディングタスクにおいて,最先端のマルチモーダルPLMと同等の性能を発揮することが示された。
統一言語モデルアーキテクチャにおけるカテゴリと連続的な分布を同時に推定する可能性を強調し、マルチモーダルPLMに対して有望な代替手段を提供する。
関連論文リスト
- Bridging the Discrete-Continuous Gap: Unified Multimodal Generation via Coupled Manifold Discrete Absorbing Diffusion [60.186310080523135]
離散データ(テキスト)に対する自己回帰的アプローチと連続データ(画像)に対する拡散的アプローチへの生成的モデリングの分岐は、真に統一されたマルチモーダルシステムの開発を妨げる。
階層的二重プロセスとしてマルチモーダル生成を再構成する新しい確率的フレームワークである textbfCoM-DAD を提案する。
提案手法は、標準的なマスキングモデルよりも優れた安定性を示し、スケーラブルで統一されたテキスト画像生成のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2026-01-07T16:21:19Z) - ProteinAE: Protein Diffusion Autoencoders for Structure Encoding [64.77182442408254]
本稿では,新規かつ合理化されたタンパク質拡散オートエンコーダであるProteinAEを紹介する。
プロテインAEは、タンパク質のバックボーン座標を直接E(3)から連続的でコンパクトな潜在空間にマッピングする。
本研究では,既存のオートエンコーダよりも優れた,最先端の再構築品質を実現することを実証する。
論文 参考訳(メタデータ) (2025-10-12T14:30:32Z) - Structure Language Models for Protein Conformation Generation [66.42864253026053]
伝統的な物理学に基づくシミュレーション手法は、しばしばサンプリング平衡整合に苦しむ。
深い生成モデルは、より効率的な代替としてタンパク質のコンホメーションを生成することを約束している。
本稿では,効率的なタンパク質コンホメーション生成のための新しいフレームワークとして構造言語モデリングを紹介する。
論文 参考訳(メタデータ) (2024-10-24T03:38:51Z) - DPLM-2: A Multimodal Diffusion Protein Language Model [75.98083311705182]
DPLM-2は, 離散拡散タンパク質言語モデル(DPLM)を拡張し, 配列と構造の両方に適合する多モーダルタンパク質基盤モデルである。
DPLM-2は、配列と構造、およびその限界と条件の結合分布を学習する。
実験によりDPLM-2は高度に互換性のあるアミノ酸配列とそれに対応する3D構造を同時に生成できることが示された。
論文 参考訳(メタデータ) (2024-10-17T17:20:24Z) - Fine-Tuning Discrete Diffusion Models via Reward Optimization with Applications to DNA and Protein Design [56.957070405026194]
拡散モデルにより生成された軌道全体を通して報酬の直接バックプロパゲーションを可能にするアルゴリズムを提案する。
DRAKESは自然に似ており、高い報酬をもたらすシーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-10-17T15:10:13Z) - Diffusion on language model encodings for protein sequence generation [0.5088559194265662]
DiMAは、タンパク質言語モデル表現で動作する潜伏拡散フレームワークである。
新規で高品質で多様なタンパク質配列を生産する。
これは、タンパク質ファミリーの生成、モチーフの足場と埋め込み、折りたたみ特異的な配列設計を含む条件付き生成タスクをサポートする。
論文 参考訳(メタデータ) (2024-03-06T14:15:20Z) - Diffusion Language Models Are Versatile Protein Learners [75.98083311705182]
本稿では,タンパク質配列の強い生成および予測能力を示す多目的なタンパク質言語モデルである拡散タンパク質言語モデル(DPLM)を紹介する。
まず, 自己制御型離散拡散確率フレームワークを用いて, 進化的タンパク質配列からのスケーラブルDPLMの事前学習を行った。
プレトレーニング後、DPLMは非条件生成のための構造的に可塑性で新規で多様なタンパク質配列を生成する能力を示す。
論文 参考訳(メタデータ) (2024-02-28T18:57:56Z) - EigenFold: Generative Protein Structure Prediction with Diffusion Models [10.24107243529341]
EigenFoldは、特定のタンパク質配列から構造分布をサンプリングする拡散生成モデリングフレームワークである。
最近のCAMEOターゲットでは、EigenFoldは0.84の中央値TMSスコアを達成し、モデルの不確実性のより包括的な画像を提供する。
論文 参考訳(メタデータ) (2023-04-05T02:46:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。