論文の概要: Prot2Text: Multimodal Protein's Function Generation with GNNs and
Transformers
- arxiv url: http://arxiv.org/abs/2307.14367v2
- Date: Thu, 21 Dec 2023 16:46:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 18:44:26.166220
- Title: Prot2Text: Multimodal Protein's Function Generation with GNNs and
Transformers
- Title(参考訳): Prot2Text:GNNとトランスフォーマーを用いたマルチモーダルタンパク質の機能生成
- Authors: Hadi Abdine, Michail Chatzianastasis, Costas Bouyioukos, Michalis
Vazirgiannis
- Abstract要約: 我々は,タンパク質関数を自由テキスト形式で予測する新しいアプローチ,textbfProt2Textを提案する。
我々のモデルは、タンパク質の配列、構造、テキストアノテーションを含む多様なデータタイプを効果的に統合する。
- 参考スコア(独自算出の注目度): 20.208587378998786
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The complex nature of big biological systems pushed some scientists to
classify its understanding under the inconceivable missions. Different leveled
challenges complicated this task, one of is the prediction of a protein's
function. In recent years, significant progress has been made in this field
through the development of various machine learning approaches. However, most
existing methods formulate the task as a multi-classification problem, i.e
assigning predefined labels to proteins. In this work, we propose a novel
approach, \textbf{Prot2Text}, which predicts a protein function's in a free
text style, moving beyond the conventional binary or categorical
classifications. By combining Graph Neural Networks(GNNs) and Large Language
Models(LLMs), in an encoder-decoder framework, our model effectively integrates
diverse data types including proteins' sequences, structures, and textual
annotations. This multimodal approach allows for a holistic representation of
proteins' functions, enabling the generation of detailed and accurate
descriptions. To evaluate our model, we extracted a multimodal protein dataset
from SwissProt, and demonstrate empirically the effectiveness of Prot2Text.
These results highlight the transformative impact of multimodal models,
specifically the fusion of GNNs and LLMs, empowering researchers with powerful
tools for more accurate prediction of proteins' functions. The code, the models
and a demo will be publicly released.
- Abstract(参考訳): ビッグバイオシステムの複雑な性質により、一部の科学者はその理解を想像もつかないミッションで分類した。
異なるレベルの課題がこのタスクを複雑にしており、その1つはタンパク質の機能の予測である。
近年,様々な機械学習手法の開発を通じて,この分野において大きな進歩を遂げている。
しかし、既存のほとんどの手法はタスクを多分類問題として定式化し、事前に定義されたラベルをタンパク質に割り当てる。
本研究では,従来の二分分類やカテゴリ分類を超越して,タンパク質関数を自由テキスト形式で予測する新しい手法である \textbf{prot2text} を提案する。
エンコーダ・デコーダフレームワークでグラフニューラルネットワーク(GNN)とLarge Language Models(LLM)を組み合わせることで,タンパク質の配列,構造,テキストアノテーションなど,さまざまなデータタイプを効果的に統合する。
このマルチモーダルアプローチはタンパク質の機能の全体的表現を可能にし、詳細で正確な記述を生成できる。
本モデルを評価するために,swissprotからマルチモーダルタンパク質データセットを抽出し,prot2textの有効性を実証した。
これらの結果は、マルチモーダルモデル、特にGNNとLLMの融合による変換効果を強調し、タンパク質の機能をより正確に予測するための強力なツールを研究者に提供する。
コード、モデル、デモは公開される予定だ。
関連論文リスト
- xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - MMDesign: Multi-Modality Transfer Learning for Generative Protein Design [66.49989188722553]
タンパク質の設計は、対応するタンパク質のバックボーンに基づいてタンパク質配列を生成する。
深層生成モデルは、データから直接タンパク質設計を学ぶことを約束している。
パブリックな構造系列ペアリングの欠如は、一般化能力を制限している。
マルチモーダルトランスファー学習を利用するMMDesignと呼ばれる新しいタンパク質設計パラダイムを提案する。
論文 参考訳(メタデータ) (2023-12-11T10:59:23Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - Target-aware Variational Auto-encoders for Ligand Generation with
Multimodal Protein Representation Learning [2.01243755755303]
ターゲット認識型自動エンコーダであるTargetVAEを導入し、任意のタンパク質標的に対する高い結合親和性で生成する。
これは、タンパク質の異なる表現を単一のモデルに統一する最初の試みであり、これは我々がタンパク質マルチモーダルネットワーク(PMN)と呼ぶ。
論文 参考訳(メタデータ) (2023-08-02T12:08:17Z) - Generative Pretrained Autoregressive Transformer Graph Neural Network
applied to the Analysis and Discovery of Novel Proteins [0.0]
本稿では,タンパク質モデリングにおける複雑な前方および逆問題を解決するために,フレキシブル言語モデルに基づくディープラーニング戦略を適用した。
本モデルを用いて, 二次構造含量(残量レベル, 全体含量), タンパク質溶解度, シークエンシングタスクの予測を行った。
追加タスクを追加することで、モデルが全体的なパフォーマンスを改善するために活用する創発的なシナジーが得られることが分かりました。
論文 参考訳(メタデータ) (2023-05-07T12:30:24Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - Multi-Scale Representation Learning on Proteins [78.31410227443102]
本稿では,タンパク質HoloProtのマルチスケールグラフ構築について紹介する。
表面はタンパク質の粗い詳細を捉え、配列は一次成分であり、構造はより微細な詳細を捉えている。
グラフエンコーダは、各レベルが下のレベル(s)からそのレベルでのグラフとエンコーディングを統合することで、マルチスケール表現を学習する。
論文 参考訳(メタデータ) (2022-04-04T08:29:17Z) - Modeling Protein Using Large-scale Pretrain Language Model [12.568452480689578]
学際的な研究者は、大規模な生物学的データセットをモデル化するためにディープラーニング手法を活用し始めている。
自然言語とタンパク質配列の類似性から着想を得て,進化的タンパク質配列をモデル化するために大規模言語モデルを用いた。
本モデルでは,進化規模個別配列の事前学習から進化情報を正確に捉えることができる。
論文 参考訳(メタデータ) (2021-08-17T04:13:11Z) - Align-gram : Rethinking the Skip-gram Model for Protein Sequence
Analysis [0.8733639720576208]
ベクトル空間において類似の$k$-mersを互いに近接してマッピングできる新しい埋め込みスキームAlign-gramを提案する。
DeepGoPlusのシンプルなベースラインLSTMモデルと非常に複雑なCNNモデルを用いた実験は、タンパク質配列解析のための様々なタイプのディープラーニングアプリケーションを実行する上で、Align-gramの可能性を示している。
論文 参考訳(メタデータ) (2020-12-06T17:04:17Z) - Intrinsic-Extrinsic Convolution and Pooling for Learning on 3D Protein
Structures [18.961218808251076]
大規模タンパク質データの深部3次元解析を可能にする2つの新しい学習操作を提案する。
まず、内在的(タンパク質の折り畳みの下での不変)と外因的(結合下での不変)の両方を考慮する新しい畳み込み演算子を導入する。
第2に、階層的なプーリング演算子を導入し、タンパク質がアミノ酸の有限組の再結合であるという事実を活用することにより、マルチスケールのタンパク質分析を可能にする。
論文 参考訳(メタデータ) (2020-07-13T09:02:40Z) - BERTology Meets Biology: Interpreting Attention in Protein Language
Models [124.8966298974842]
注目レンズを用いたタンパク質トランスフォーマーモデルの解析方法を示す。
注意はタンパク質の折りたたみ構造を捉え、基礎となる配列では遠く離れているが、三次元構造では空間的に近接しているアミノ酸を接続する。
また、注意とタンパク質構造との相互作用を三次元的に可視化する。
論文 参考訳(メタデータ) (2020-06-26T21:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。