Fugu-MT 論文翻訳(概要): Prot2Text: Multimodal Protein's Function Generation with GNNs and Transformers

論文の概要: Prot2Text: Multimodal Protein's Function Generation with GNNs and Transformers

arxiv url: http://arxiv.org/abs/2307.14367v2
Date: Thu, 21 Dec 2023 16:46:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-22 18:44:26.166220
Title: Prot2Text: Multimodal Protein's Function Generation with GNNs and Transformers
Title（参考訳）: Prot2Text:GNNとトランスフォーマーを用いたマルチモーダルタンパク質の機能生成
Authors: Hadi Abdine, Michail Chatzianastasis, Costas Bouyioukos, Michalis Vazirgiannis
Abstract要約: 我々は,タンパク質関数を自由テキスト形式で予測する新しいアプローチ,textbfProt2Textを提案する。我々のモデルは、タンパク質の配列、構造、テキストアノテーションを含む多様なデータタイプを効果的に統合する。
参考スコア（独自算出の注目度）: 20.208587378998786
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The complex nature of big biological systems pushed some scientists to classify its understanding under the inconceivable missions. Different leveled challenges complicated this task, one of is the prediction of a protein's function. In recent years, significant progress has been made in this field through the development of various machine learning approaches. However, most existing methods formulate the task as a multi-classification problem, i.e assigning predefined labels to proteins. In this work, we propose a novel approach, \textbf{Prot2Text}, which predicts a protein function's in a free text style, moving beyond the conventional binary or categorical classifications. By combining Graph Neural Networks(GNNs) and Large Language Models(LLMs), in an encoder-decoder framework, our model effectively integrates diverse data types including proteins' sequences, structures, and textual annotations. This multimodal approach allows for a holistic representation of proteins' functions, enabling the generation of detailed and accurate descriptions. To evaluate our model, we extracted a multimodal protein dataset from SwissProt, and demonstrate empirically the effectiveness of Prot2Text. These results highlight the transformative impact of multimodal models, specifically the fusion of GNNs and LLMs, empowering researchers with powerful tools for more accurate prediction of proteins' functions. The code, the models and a demo will be publicly released.
Abstract（参考訳）: ビッグバイオシステムの複雑な性質により、一部の科学者はその理解を想像もつかないミッションで分類した。異なるレベルの課題がこのタスクを複雑にしており、その1つはタンパク質の機能の予測である。近年,様々な機械学習手法の開発を通じて,この分野において大きな進歩を遂げている。しかし、既存のほとんどの手法はタスクを多分類問題として定式化し、事前に定義されたラベルをタンパク質に割り当てる。本研究では,従来の二分分類やカテゴリ分類を超越して,タンパク質関数を自由テキスト形式で予測する新しい手法である \textbf{prot2text} を提案する。エンコーダ・デコーダフレームワークでグラフニューラルネットワーク(GNN)とLarge Language Models(LLM)を組み合わせることで,タンパク質の配列,構造,テキストアノテーションなど,さまざまなデータタイプを効果的に統合する。このマルチモーダルアプローチはタンパク質の機能の全体的表現を可能にし、詳細で正確な記述を生成できる。本モデルを評価するために,swissprotからマルチモーダルタンパク質データセットを抽出し,prot2textの有効性を実証した。これらの結果は、マルチモーダルモデル、特にGNNとLLMの融合による変換効果を強調し、タンパク質の機能をより正確に予測するための強力なツールを研究者に提供する。コード、モデル、デモは公開される予定だ。

関連論文リスト

Enhancing Multimodal Protein Function Prediction Through Dual-Branch Dynamic Selection with Reconstructive Pre-Training [19.3863460349536]
動的選択と再構成事前学習機構を利用した多モードタンパク質機能予測法(DSRPGO)を提案する。提案するDSRPGOモデルは,人間のデータセット上でのBPO,MFO,CCOを大幅に改善する。
論文参考訳（メタデータ） (2025-11-06T04:19:42Z)
Protein as a Second Language for LLMs [50.34983283157322]
『Protein-as-Second-Language』の枠組みは、新しいシンボリック言語における文としてアミノ酸配列を再構成する。属性予測,記述的理解,拡張推論にまたがる79,926個のタンパク質-QAインスタンスのバイリンガルコーパスをキュレートする。提案手法は,オープンソース LLM と GPT-4 間で一貫した利得を提供し,最大 17.2% のROUGE-L 改善を実現している。
論文参考訳（メタデータ） (2025-10-13T09:21:45Z)
Prot2Token: A Unified Framework for Protein Modeling via Next-Token Prediction [19.164841536081568]
Prot2Tokenは、タンパク質関連予測の幅広い範囲を変換することで、課題を克服する統合フレームワークである。 Prot2Tokenのコアは自動回帰デコーダで、事前訓練されたタンパク質エンコーダの埋め込みを条件とし、学習可能なタスクトークンでガイドされる。 Prot2Tokensは様々な種類のタンパク質予測タスクにおいて強い予測力を示す。
論文参考訳（メタデータ） (2025-05-26T23:50:36Z)
Prot2Chat: Protein LLM with Early Fusion of Sequence and Structure [7.9473027178525975]
Prot2Chatは、マルチモーダルなタンパク質表現と自然言語を統一モジュールを通じて統合する新しいフレームワークである。本モデルでは,タンパク質配列と構造情報を統一的にエンコードするタンパク質MPNNエンコーダと,クロスアテンション機構を持つタンパク質テキストアダプタを組み込んだ。
論文参考訳（メタデータ） (2025-02-07T05:23:16Z)
ProtCLIP: Function-Informed Protein Multi-Modal Learning [18.61302416993122]
ProtCLIPは,機能認識タンパク質の埋め込みを表現した多モード基盤モデルである。当社のProtCLIPは,5つのクロスモーダル変換ベンチマークにおいて,平均75%の大幅な改善を実現している。実験により,タンパク質多量性基盤モデルとしてのProtCLIPの異常なポテンシャルが検証された。
論文参考訳（メタデータ） (2024-12-28T04:23:47Z)
Multi-Scale Representation Learning for Protein Fitness Prediction [31.735234482320283]
これまでの手法は主に、巨大でラベルなしのタンパク質配列や構造データセットに基づいて訓練された自己教師型モデルに依存してきた。本稿では,タンパク質の機能を統合する新しいマルチモーダル表現学習フレームワークであるSequence-Structure-Surface Fitness (S3F)モデルを紹介する。提案手法は,タンパク質言語モデルからの配列表現と,タンパク質のバックボーンと詳細な表面トポロジーをコードするGeometric Vector Perceptronネットワークを組み合わせる。
論文参考訳（メタデータ） (2024-12-02T04:28:10Z)
OneProt: Towards Multi-Modal Protein Foundation Models [5.440531199006399]
我々は、構造、配列、アライメント、結合サイトデータを統合する、タンパク質のためのマルチモーダルAIであるOneProtを紹介する。金属イオン結合分類、遺伝子オントロジーアノテーション、酵素機能予測など、様々な下流タスクにおける最先端の手法を超越している。この研究は、タンパク質モデルにおけるマルチモーダル能力を拡大し、薬物発見、生物触媒反応計画、タンパク質工学の応用への道を開く。
論文参考訳（メタデータ） (2024-11-07T16:54:54Z)
ProtLLM: An Interleaved Protein-Language LLM with Protein-as-Word Pre-Training [82.37346937497136]
本稿では,タンパク質中心タスクとタンパク質言語タスクの両方を対象とした多機能多言語多言語言語モデル (LLM) を提案する。 ProtLLMはユニークな動的タンパク質実装機構を備えており、複雑な入力を処理できる。専門的なタンパク質語彙を開発することで、自然言語だけでなく、膨大な候補からタンパク質を予測できる能力をモデルに装備する。
論文参考訳（メタデータ） (2024-02-28T01:29:55Z)
xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。 xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文参考訳（メタデータ） (2024-01-11T15:03:17Z)
Efficiently Predicting Protein Stability Changes Upon Single-point Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文参考訳（メタデータ） (2023-12-07T03:25:49Z)
Pairing interacting protein sequences using masked language modeling [0.3222802562733787]
配列アライメントに基づいて訓練されたタンパク質言語モデルを用いて相互作用するタンパク質配列をペア化する手法を開発した。我々は、MSAトランスフォーマーが、周囲のコンテキストを用いて複数の配列アライメントでマスクされたアミノ酸を埋める能力を利用する。単一チェーンデータでトレーニングされている間に、チェーン間の共進化をキャプチャできることが示されています。
論文参考訳（メタデータ） (2023-08-14T13:42:09Z)
Target-aware Variational Auto-encoders for Ligand Generation with Multimodal Protein Representation Learning [2.01243755755303]
ターゲット認識型自動エンコーダであるTargetVAEを導入し、任意のタンパク質標的に対する高い結合親和性で生成する。これは、タンパク質の異なる表現を単一のモデルに統一する最初の試みであり、これは我々がタンパク質マルチモーダルネットワーク(PMN)と呼ぶ。
論文参考訳（メタデータ） (2023-08-02T12:08:17Z)
Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文参考訳（メタデータ） (2022-04-06T02:18:41Z)
Multi-Scale Representation Learning on Proteins [78.31410227443102]
本稿では,タンパク質HoloProtのマルチスケールグラフ構築について紹介する。表面はタンパク質の粗い詳細を捉え、配列は一次成分であり、構造はより微細な詳細を捉えている。グラフエンコーダは、各レベルが下のレベル(s)からそのレベルでのグラフとエンコーディングを統合することで、マルチスケール表現を学習する。
論文参考訳（メタデータ） (2022-04-04T08:29:17Z)
PersGNN: Applying Topological Data Analysis and Geometric Deep Learning to Structure-Based Protein Function Prediction [0.07340017786387766]
本研究では,タンパク質構造を分離し,タンパク質データバンク内のタンパク質の機能的アノテーションを作成する。本稿では,グラフ表現学習とトポロジカルデータ解析を組み合わせた,エンドツーエンドのトレーニング可能なディープラーニングモデルPersGNNを提案する。
論文参考訳（メタデータ） (2020-10-30T02:24:35Z)
Intrinsic-Extrinsic Convolution and Pooling for Learning on 3D Protein Structures [18.961218808251076]
大規模タンパク質データの深部3次元解析を可能にする2つの新しい学習操作を提案する。まず、内在的(タンパク質の折り畳みの下での不変)と外因的(結合下での不変)の両方を考慮する新しい畳み込み演算子を導入する。第2に、階層的なプーリング演算子を導入し、タンパク質がアミノ酸の有限組の再結合であるという事実を活用することにより、マルチスケールのタンパク質分析を可能にする。
論文参考訳（メタデータ） (2020-07-13T09:02:40Z)
BERTology Meets Biology: Interpreting Attention in Protein Language Models [124.8966298974842]
注目レンズを用いたタンパク質トランスフォーマーモデルの解析方法を示す。注意はタンパク質の折りたたみ構造を捉え、基礎となる配列では遠く離れているが、三次元構造では空間的に近接しているアミノ酸を接続する。また、注意とタンパク質構造との相互作用を三次元的に可視化する。
論文参考訳（メタデータ） (2020-06-26T21:50:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。