論文の概要: Prot2Text: Multimodal Protein's Function Generation with GNNs and
Transformers
- arxiv url: http://arxiv.org/abs/2307.14367v2
- Date: Thu, 21 Dec 2023 16:46:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 18:44:26.166220
- Title: Prot2Text: Multimodal Protein's Function Generation with GNNs and
Transformers
- Title(参考訳): Prot2Text:GNNとトランスフォーマーを用いたマルチモーダルタンパク質の機能生成
- Authors: Hadi Abdine, Michail Chatzianastasis, Costas Bouyioukos, Michalis
Vazirgiannis
- Abstract要約: 我々は,タンパク質関数を自由テキスト形式で予測する新しいアプローチ,textbfProt2Textを提案する。
我々のモデルは、タンパク質の配列、構造、テキストアノテーションを含む多様なデータタイプを効果的に統合する。
- 参考スコア(独自算出の注目度): 20.208587378998786
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The complex nature of big biological systems pushed some scientists to
classify its understanding under the inconceivable missions. Different leveled
challenges complicated this task, one of is the prediction of a protein's
function. In recent years, significant progress has been made in this field
through the development of various machine learning approaches. However, most
existing methods formulate the task as a multi-classification problem, i.e
assigning predefined labels to proteins. In this work, we propose a novel
approach, \textbf{Prot2Text}, which predicts a protein function's in a free
text style, moving beyond the conventional binary or categorical
classifications. By combining Graph Neural Networks(GNNs) and Large Language
Models(LLMs), in an encoder-decoder framework, our model effectively integrates
diverse data types including proteins' sequences, structures, and textual
annotations. This multimodal approach allows for a holistic representation of
proteins' functions, enabling the generation of detailed and accurate
descriptions. To evaluate our model, we extracted a multimodal protein dataset
from SwissProt, and demonstrate empirically the effectiveness of Prot2Text.
These results highlight the transformative impact of multimodal models,
specifically the fusion of GNNs and LLMs, empowering researchers with powerful
tools for more accurate prediction of proteins' functions. The code, the models
and a demo will be publicly released.
- Abstract(参考訳): ビッグバイオシステムの複雑な性質により、一部の科学者はその理解を想像もつかないミッションで分類した。
異なるレベルの課題がこのタスクを複雑にしており、その1つはタンパク質の機能の予測である。
近年,様々な機械学習手法の開発を通じて,この分野において大きな進歩を遂げている。
しかし、既存のほとんどの手法はタスクを多分類問題として定式化し、事前に定義されたラベルをタンパク質に割り当てる。
本研究では,従来の二分分類やカテゴリ分類を超越して,タンパク質関数を自由テキスト形式で予測する新しい手法である \textbf{prot2text} を提案する。
エンコーダ・デコーダフレームワークでグラフニューラルネットワーク(GNN)とLarge Language Models(LLM)を組み合わせることで,タンパク質の配列,構造,テキストアノテーションなど,さまざまなデータタイプを効果的に統合する。
このマルチモーダルアプローチはタンパク質の機能の全体的表現を可能にし、詳細で正確な記述を生成できる。
本モデルを評価するために,swissprotからマルチモーダルタンパク質データセットを抽出し,prot2textの有効性を実証した。
これらの結果は、マルチモーダルモデル、特にGNNとLLMの融合による変換効果を強調し、タンパク質の機能をより正確に予測するための強力なツールを研究者に提供する。
コード、モデル、デモは公開される予定だ。
関連論文リスト
- OneProt: Towards Multi-Modal Protein Foundation Models [5.440531199006399]
我々は、構造、配列、アライメント、結合サイトデータを統合する、タンパク質のためのマルチモーダルAIであるOneProtを紹介する。
金属イオン結合分類、遺伝子オントロジーアノテーション、酵素機能予測など、様々な下流タスクにおける最先端の手法を超越している。
この研究は、タンパク質モデルにおけるマルチモーダル能力を拡大し、薬物発見、生物触媒反応計画、タンパク質工学の応用への道を開く。
論文 参考訳(メタデータ) (2024-11-07T16:54:54Z) - ProtLLM: An Interleaved Protein-Language LLM with Protein-as-Word Pre-Training [82.37346937497136]
本稿では,タンパク質中心タスクとタンパク質言語タスクの両方を対象とした多機能多言語多言語言語モデル (LLM) を提案する。
ProtLLMはユニークな動的タンパク質実装機構を備えており、複雑な入力を処理できる。
専門的なタンパク質語彙を開発することで、自然言語だけでなく、膨大な候補からタンパク質を予測できる能力をモデルに装備する。
論文 参考訳(メタデータ) (2024-02-28T01:29:55Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - Pairing interacting protein sequences using masked language modeling [0.3222802562733787]
配列アライメントに基づいて訓練されたタンパク質言語モデルを用いて相互作用するタンパク質配列をペア化する手法を開発した。
我々は、MSAトランスフォーマーが、周囲のコンテキストを用いて複数の配列アライメントでマスクされたアミノ酸を埋める能力を利用する。
単一チェーンデータでトレーニングされている間に、チェーン間の共進化をキャプチャできることが示されています。
論文 参考訳(メタデータ) (2023-08-14T13:42:09Z) - Target-aware Variational Auto-encoders for Ligand Generation with
Multimodal Protein Representation Learning [2.01243755755303]
ターゲット認識型自動エンコーダであるTargetVAEを導入し、任意のタンパク質標的に対する高い結合親和性で生成する。
これは、タンパク質の異なる表現を単一のモデルに統一する最初の試みであり、これは我々がタンパク質マルチモーダルネットワーク(PMN)と呼ぶ。
論文 参考訳(メタデータ) (2023-08-02T12:08:17Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - Multi-Scale Representation Learning on Proteins [78.31410227443102]
本稿では,タンパク質HoloProtのマルチスケールグラフ構築について紹介する。
表面はタンパク質の粗い詳細を捉え、配列は一次成分であり、構造はより微細な詳細を捉えている。
グラフエンコーダは、各レベルが下のレベル(s)からそのレベルでのグラフとエンコーディングを統合することで、マルチスケール表現を学習する。
論文 参考訳(メタデータ) (2022-04-04T08:29:17Z) - PersGNN: Applying Topological Data Analysis and Geometric Deep Learning
to Structure-Based Protein Function Prediction [0.07340017786387766]
本研究では,タンパク質構造を分離し,タンパク質データバンク内のタンパク質の機能的アノテーションを作成する。
本稿では,グラフ表現学習とトポロジカルデータ解析を組み合わせた,エンドツーエンドのトレーニング可能なディープラーニングモデルPersGNNを提案する。
論文 参考訳(メタデータ) (2020-10-30T02:24:35Z) - Intrinsic-Extrinsic Convolution and Pooling for Learning on 3D Protein
Structures [18.961218808251076]
大規模タンパク質データの深部3次元解析を可能にする2つの新しい学習操作を提案する。
まず、内在的(タンパク質の折り畳みの下での不変)と外因的(結合下での不変)の両方を考慮する新しい畳み込み演算子を導入する。
第2に、階層的なプーリング演算子を導入し、タンパク質がアミノ酸の有限組の再結合であるという事実を活用することにより、マルチスケールのタンパク質分析を可能にする。
論文 参考訳(メタデータ) (2020-07-13T09:02:40Z) - BERTology Meets Biology: Interpreting Attention in Protein Language
Models [124.8966298974842]
注目レンズを用いたタンパク質トランスフォーマーモデルの解析方法を示す。
注意はタンパク質の折りたたみ構造を捉え、基礎となる配列では遠く離れているが、三次元構造では空間的に近接しているアミノ酸を接続する。
また、注意とタンパク質構造との相互作用を三次元的に可視化する。
論文 参考訳(メタデータ) (2020-06-26T21:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。