Fugu-MT 論文翻訳(概要): MMDesign: Multi-Modality Transfer Learning for Generative Protein Design

論文の概要: MMDesign: Multi-Modality Transfer Learning for Generative Protein Design

arxiv url: http://arxiv.org/abs/2312.06297v1
Date: Mon, 11 Dec 2023 10:59:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-12 15:53:09.218609
Title: MMDesign: Multi-Modality Transfer Learning for Generative Protein Design
Title（参考訳）: MMDesign: 生成タンパク質設計のためのマルチモーダルトランスファー学習
Authors: Jiangbin Zheng, Siyuan Li, Yufei Huang, Zhangyang Gao, Cheng Tan, Bozhen Hu, Jun Xia, Ge Wang, Stan Z. Li
Abstract要約: タンパク質の設計は、対応するタンパク質のバックボーンに基づいてタンパク質配列を生成する。深層生成モデルは、データから直接タンパク質設計を学ぶことを約束している。パブリックな構造系列ペアリングの欠如は、一般化能力を制限している。マルチモーダルトランスファー学習を利用するMMDesignと呼ばれる新しいタンパク質設計パラダイムを提案する。
参考スコア（独自算出の注目度）: 66.49989188722553
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Protein design involves generating protein sequences based on their corresponding protein backbones. While deep generative models show promise for learning protein design directly from data, the lack of publicly available structure-sequence pairings limits their generalization capabilities. Previous efforts of generative protein design have focused on architectural improvements and pseudo-data augmentation to overcome this bottleneck. To further address this challenge, we propose a novel protein design paradigm called MMDesign, which leverages multi-modality transfer learning. To our knowledge, MMDesign is the first framework that combines a pretrained structural module with a pretrained contextual module, using an auto-encoder (AE) based language model to incorporate prior semantic knowledge of protein sequences. We also introduce a cross-layer cross-modal alignment algorithm to enable the structural module to learn long-term temporal information and ensure consistency between structural and contextual modalities. Experimental results, only training with the small CATH dataset, demonstrate that our MMDesign framework consistently outperforms other baselines on various public test sets. To further assess the biological plausibility of the generated protein sequences and data distribution, we present systematic quantitative analysis techniques that provide interpretability and reveal more about the laws of protein design.
Abstract（参考訳）: タンパク質の設計は、対応するタンパク質のバックボーンに基づいてタンパク質配列を生成する。深層生成モデルは、データから直接タンパク質設計を学ぶことを約束する一方で、公開可能な構造系列ペアリングの欠如は、その一般化能力を制限している。ジェネレイティブタンパク質設計の以前の取り組みは、このボトルネックを克服するために、アーキテクチャの改善と擬似データ拡張に焦点を当ててきた。この課題をさらに解決するために,マルチモーダルトランスファー学習を利用したMMDesignという新しいタンパク質設計パラダイムを提案する。我々の知る限り、MMDesignは、事前訓練された構造モジュールと事前訓練されたコンテキストモジュールを結合する最初のフレームワークであり、オートエンコーダ(AE)ベースの言語モデルを用いて、タンパク質配列の事前の意味知識を組み込む。また,構造モジュールが長期の時間的情報を学習し,構造的および文脈的モダリティの一貫性を確保するためのクロスレイヤークロスモーダルアライメントアルゴリズムを提案する。実験の結果、小さなCATHデータセットでのみトレーニングした結果、我々のMMDesignフレームワークは、様々な公開テストセットで他のベースラインを一貫して上回ります。生成したタンパク質配列とデータ分布の生物学的妥当性を更に評価するために, 解釈可能性を提供し, タンパク質設計の法則をさらに明らかにする系統的定量的解析手法を提案する。

関連論文リスト

Protein-SE(3): Benchmarking SE(3)-based Generative Models for Protein Structure Design [35.87227562237066]
SE(3)に基づく生成モデルは、タンパク質の幾何学的モデリングと効率的な構造設計において非常に有望である。統合トレーニングフレームワークに基づく新しいベンチマークであるProtein-SE(3)は、タンパク質の足場タスク、統合生成モデル、高レベルの数学的抽象化、多様な評価指標で構成されている。
論文参考訳（メタデータ） (2025-07-27T11:53:05Z)
AMix-1: A Pathway to Test-Time Scalable Protein Foundation Model [92.51919604882984]
本稿では,Flow Bayesian Networks上に構築された強力なタンパク質基盤モデルAMix-1を紹介する。 AMix-1は、事前学習のスケーリング法則、創発的能力分析、コンテキスト内学習機構、テスト時間スケーリングアルゴリズムを含む、体系的なトレーニング手法によって強化されている。この基盤を基盤として、タンパク質設計を汎用フレームワークに統合するためのマルチシーケンスアライメント(MSA)ベースのコンテキスト内学習戦略を考案した。
論文参考訳（メタデータ） (2025-07-11T17:02:25Z)
Rethinking Text-based Protein Understanding: Retrieval or LLM? [26.278517638774005]
タンパク質テキストモデルは、タンパク質の生成と理解において大きな注目を集めている。現在のアプローチでは、タンパク質関連の知識を、継続した事前学習とマルチモーダルアライメントを通じて、大きな言語モデルに統合することに重点を置いている。そこで本研究では,タンパク質間テキスト生成のための微調整LDMを著しく上回り,学習不要シナリオにおける精度と効率性を示す検索強化手法を提案する。
論文参考訳（メタデータ） (2025-05-26T06:25:43Z)
Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [86.21199607040147]
自己改善認知(Self-Improving cognition、SIcog)は、次世代基礎言語モデルを構築するための自己学習フレームワークである。ステップバイステップの視覚的理解手法であるChain-of-Descriptionを導入し、構造化連鎖推論(CoT)を統合し、深いマルチモーダル推論をサポートする。広範囲にわたる実験により、SIcogはマルチモーダル認知を著しく改善した次世代基盤MLLMを生産することが示された。
論文参考訳（メタデータ） (2025-03-16T00:25:13Z)
Advanced Deep Learning Methods for Protein Structure Prediction and Design [28.575821996185024]
タンパク質構造予測と設計に応用した高度な深層学習手法を包括的に検討する。テキストは、構造生成、評価指標、多重シーケンスアライメント処理、ネットワークアーキテクチャを含む重要なコンポーネントを分析する。予測精度を向上し、深層学習技術と実験的検証を統合するための戦略を徹底的に検討した。
論文参考訳（メタデータ） (2025-03-14T21:28:29Z)
SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文参考訳（メタデータ） (2024-10-31T15:22:03Z)
Structure-Enhanced Protein Instruction Tuning: Towards General-Purpose Protein Understanding [43.811432723460534]
本稿では,このギャップを埋めるために,構造強化タンパク質インストラクションチューニング(SEPIT)フレームワークを紹介する。提案手法では, 構造的知識を付加するため, 構造的知識を付加し, これらの拡張された pLM を大規模言語モデル (LLM) に接続し, タンパク質の理解を創出する。我々はこれまでで最大かつ最も包括的なタンパク質命令データセットを構築し、汎用タンパク質理解モデルの訓練と評価を可能にした。
論文参考訳（メタデータ） (2024-10-04T16:02:50Z)
ProteinBench: A Holistic Evaluation of Protein Foundation Models [53.59325047872512]
本稿では,タンパク質基盤モデルのための総合評価フレームワークであるProteinBenchを紹介する。本研究のアプローチは, タンパク質ドメインにおける課題を包括的に包括するタスクの分類学的分類, (ii) 品質, 新規性, 多様性, 堅牢性, および (iii) 様々なユーザ目標から詳細な分析を行い, モデルパフォーマンスの全体的視点を提供する,4つの重要な側面にわたるパフォーマンスを評価するマルチメトリック評価アプローチからなる。
論文参考訳（メタデータ） (2024-09-10T06:52:33Z)
Endowing Protein Language Models with Structural Knowledge [5.587293092389789]
本稿では,タンパク質構造データを統合することにより,タンパク質言語モデルを強化する新しいフレームワークを提案する。 PST(Protein Structure Transformer)と呼ばれる精製モデルは、小さなタンパク質構造データベース上でさらに事前訓練されている。 PSTは、タンパク質配列の最先端基盤モデルであるESM-2を一貫して上回り、タンパク質機能予測の新しいベンチマークを設定している。
論文参考訳（メタデータ） (2024-01-26T12:47:54Z)
xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。 xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文参考訳（メタデータ） (2024-01-11T15:03:17Z)
Target-aware Variational Auto-encoders for Ligand Generation with Multimodal Protein Representation Learning [2.01243755755303]
ターゲット認識型自動エンコーダであるTargetVAEを導入し、任意のタンパク質標的に対する高い結合親和性で生成する。これは、タンパク質の異なる表現を単一のモデルに統一する最初の試みであり、これは我々がタンパク質マルチモーダルネットワーク(PMN)と呼ぶ。
論文参考訳（メタデータ） (2023-08-02T12:08:17Z)
Generative Pretrained Autoregressive Transformer Graph Neural Network applied to the Analysis and Discovery of Novel Proteins [0.0]
本稿では,タンパク質モデリングにおける複雑な前方および逆問題を解決するために,フレキシブル言語モデルに基づくディープラーニング戦略を適用した。本モデルを用いて, 二次構造含量(残量レベル, 全体含量), タンパク質溶解度, シークエンシングタスクの予測を行った。追加タスクを追加することで、モデルが全体的なパフォーマンスを改善するために活用する創発的なシナジーが得られることが分かりました。
論文参考訳（メタデータ） (2023-05-07T12:30:24Z)
Integration of Pre-trained Protein Language Models into Geometric Deep Learning Networks [68.90692290665648]
我々は、タンパク質言語モデルから学んだ知識を、いくつかの最先端の幾何学的ネットワークに統合する。以上の結果から,ベースラインを20%上回る総合的な改善が見られた。強い証拠は、タンパク質言語モデルの知識を取り入れることで、幾何学的ネットワークの能力が著しく向上することを示している。
論文参考訳（メタデータ） (2022-12-07T04:04:04Z)
Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文参考訳（メタデータ） (2022-04-06T02:18:41Z)
Rethinking Relational Encoding in Language Model: Pre-Training for General Sequences [23.806325599416134]
言語モデル事前トレーニングは、非自然言語ドメインにおけるシーケンス毎の関係のモデリングに失敗する。 LMPTと深い構造保存メトリック学習を組み合わせ、よりリッチな埋め込みを生成するフレームワークを開発しています。我々のアプローチは下流タスクで顕著なパフォーマンス改善を提供します。
論文参考訳（メタデータ） (2021-03-18T15:51:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。