Fugu-MT 論文翻訳(概要): ProtST: Multi-Modality Learning of Protein Sequences and Biomedical Texts

論文の概要: ProtST: Multi-Modality Learning of Protein Sequences and Biomedical Texts

arxiv url: http://arxiv.org/abs/2301.12040v2
Date: Wed, 5 Jul 2023 03:17:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-06 23:16:42.309863
Title: ProtST: Multi-Modality Learning of Protein Sequences and Biomedical Texts
Title（参考訳）: ProtST:タンパク質配列とバイオメディカルテキストのマルチモーダル学習
Authors: Minghao Xu, Xinyu Yuan, Santiago Miret, Jian Tang
Abstract要約: タンパク質配列を拡大するProtSTデータセットを構築し,その機能や重要な特性をテキストで記述する。事前学習中に、単調マスク予測、マルチモーダル表現アライメント、マルチモーダルマスク予測という3種類のタスクを設計する。下流タスクでは、ProtSTは教師付き学習とゼロショット予測の両方を可能にする。
参考スコア（独自算出の注目度）: 22.870765825298268
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current protein language models (PLMs) learn protein representations mainly based on their sequences, thereby well capturing co-evolutionary information, but they are unable to explicitly acquire protein functions, which is the end goal of protein representation learning. Fortunately, for many proteins, their textual property descriptions are available, where their various functions are also described. Motivated by this fact, we first build the ProtDescribe dataset to augment protein sequences with text descriptions of their functions and other important properties. Based on this dataset, we propose the ProtST framework to enhance Protein Sequence pre-training and understanding by biomedical Texts. During pre-training, we design three types of tasks, i.e., unimodal mask prediction, multimodal representation alignment and multimodal mask prediction, to enhance a PLM with protein property information with different granularities and, at the same time, preserve the PLM's original representation power. On downstream tasks, ProtST enables both supervised learning and zero-shot prediction. We verify the superiority of ProtST-induced PLMs over previous ones on diverse representation learning benchmarks. Under the zero-shot setting, we show the effectiveness of ProtST on zero-shot protein classification, and ProtST also enables functional protein retrieval from a large-scale database without any function annotation.
Abstract（参考訳）: 現在のタンパク質言語モデル(plm)は、主にそれらの配列に基づいてタンパク質の表現を学習し、共進化的な情報をうまく捉えているが、タンパク質の表現学習の最終目標であるタンパク質の機能を明示的に獲得することはできない。幸いなことに、多くのタンパク質では、それらの様々な機能を記述するために、それらのテキスト的特性記述が利用可能である。この事実に動機づけられ、まずprotdescribeデータセットを構築し、その機能とその他の重要な特性のテキスト記述でタンパク質配列を増強する。本稿では,タンパク質配列の事前学習とバイオメディカルテキストによる理解を促進するためのProtSTフレームワークを提案する。プレトレーニング中,我々は3種類のタスク,すなわちユニモーダルマスク予測,マルチモーダル表現アライメント,マルチモーダルマスク予測をデザインし,異なる粒度を持つタンパク質特性情報を持つplmを強化し,同時にplmの本来の表現力を保持する。下流タスクでは、ProtSTは教師付き学習とゼロショット予測の両方を可能にする。多様な表現学習ベンチマークにおいて, ProtST による PLM の優位性を検証する。ゼロショット設定では, ゼロショットタンパク質分類におけるProtSTの有効性が示され, また, ProtSTは機能アノテーションなしで大規模データベースから機能的タンパク質検索を可能にする。

関連論文リスト

Ankh3: Multi-Task Pretraining with Sequence Denoising and Completion Enhances Protein Representations [0.3124884279860061]
タンパク質言語モデル(PLM)は、タンパク質配列の複雑なパターンを検出する強力なツールとして登場した。 PLMのマルチタスク事前学習戦略について検討した。このマルチタスク事前学習は、PLMがタンパク質配列のみからよりリッチでより一般化可能な表現を学習できることを実証した。
論文参考訳（メタデータ） (2025-05-26T14:41:10Z)
Protein Large Language Models: A Comprehensive Survey [71.65899614084853]
タンパク質特異的な大規模言語モデル(Protein LLMs)は、より効率的なタンパク質構造予測、機能アノテーション、設計を可能にすることで、タンパク質科学に革命をもたらしている。この作業は、アーキテクチャ、データセットのトレーニング、評価メトリクス、さまざまなアプリケーションをカバーする、Protein LLMの最初の包括的な概要を提供する。
論文参考訳（メタデータ） (2025-02-21T19:22:10Z)
Prot2Chat: Protein LLM with Early-Fusion of Text, Sequence and Structure [7.9473027178525975]
タンパク質配列と構造情報を統一的にエンコードするために,タンパク質MPNNを改変した。我々は,大規模言語モデル(LLM)を用いて質問をベクトルにエンコードし,タンパク質情報を仮想トークンに圧縮するタンパク質テキストアダプタを開発した。
論文参考訳（メタデータ） (2025-02-07T05:23:16Z)
EvoLlama: Enhancing LLMs' Understanding of Proteins via Multimodal Structure and Sequence Representations [28.298740080002077]
タンパク質を理解するための現在の大規模言語モデル(LLM)は、主にアミノ酸配列をテキストモダリティとして扱う。 EvoLlamaは構造ベースのエンコーダ、配列ベースのタンパク質エンコーダ、およびタンパク質理解のためのLLMを接続するフレームワークである。実験の結果,EvoLlamaのタンパク質理解能力は著しく向上した。
論文参考訳（メタデータ） (2024-12-16T10:01:33Z)
Multi-modal Representation Learning Enables Accurate Protein Function Prediction in Low-Data Setting [0.0]
HOPER(Holistic ProtEin Representation)は、低データ設定でタンパク質機能予測(PFP)を強化するために設計された新しいフレームワークである。本研究は,生物研究におけるデータ制限を克服するためのマルチモーダル表現学習の有効性を強調した。
論文参考訳（メタデータ） (2024-11-22T20:13:55Z)
A Fine-tuning Dataset and Benchmark for Large Language Models for Protein Understanding [10.652670673334486]
ProteinLMBenchは、LCMのタンパク質理解能力を評価するために、手動で検証された多重選択質問からなる最初のベンチマークデータセットである。 ProteinLMDatasetは、さらに自己教師付き事前トレーニングと教師付き微調整のために設計されたデータセットである。インターンLM2-7BはProteinLMDatasetで事前訓練され微調整され、ProteinLMBenchでGPT-4を上回り、高い精度のスコアを得た。
論文参考訳（メタデータ） (2024-06-08T18:11:30Z)
ProtT3: Protein-to-Text Generation for Text-based Protein Understanding [88.43323947543996]
言語モデル(LM)は、タンパク質のテキスト記述を理解するのに優れている。タンパク質言語モデル(PLM)は、タンパク質データを理解し、高品質な表現に変換するが、テキストを処理するのに苦労する。 ProtT3は、テキストベースのタンパク質理解のための、タンパク質からテキストへの生成のためのフレームワークである。
論文参考訳（メタデータ） (2024-05-21T08:06:13Z)
ProLLM: Protein Chain-of-Thoughts Enhanced LLM for Protein-Protein Interaction Prediction [54.132290875513405]
タンパク質-タンパク質相互作用(PPI)の予測は、生物学的機能や疾患を理解する上で重要である。 PPI予測に対する従来の機械学習アプローチは、主に直接的な物理的相互作用に焦点を当てていた。 PPIに適したLLMを用いた新しいフレームワークProLLMを提案する。
論文参考訳（メタデータ） (2024-03-30T05:32:42Z)
ProtLLM: An Interleaved Protein-Language LLM with Protein-as-Word Pre-Training [82.37346937497136]
本稿では,タンパク質中心タスクとタンパク質言語タスクの両方を対象とした多機能多言語多言語言語モデル (LLM) を提案する。 ProtLLMはユニークな動的タンパク質実装機構を備えており、複雑な入力を処理できる。専門的なタンパク質語彙を開発することで、自然言語だけでなく、膨大な候補からタンパク質を予測できる能力をモデルに装備する。
論文参考訳（メタデータ） (2024-02-28T01:29:55Z)
xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。 xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文参考訳（メタデータ） (2024-01-11T15:03:17Z)
Prot2Text: Multimodal Protein's Function Generation with GNNs and Transformers [18.498779242323582]
本稿では,タンパク質の機能を自由テキスト形式で予測する新しいアプローチであるProt2Textを提案する。エンコーダ・デコーダフレームワークでグラフニューラルネットワーク(GNN)とLarge Language Models(LLM)を組み合わせることにより,本モデルは多種多様なデータ型を効果的に統合する。
論文参考訳（メタデータ） (2023-07-25T09:35:43Z)
Retrieved Sequence Augmentation for Protein Representation Learning [40.13920287967866]
本稿では,タンパク質表現学習のための検索シーケンス拡張について,アライメントや前処理を伴わずに導入する。本モデルでは,新しいタンパク質ドメインに移行し,デノボタンパク質の予測においてMSAトランスフォーマーより優れていることを示す。我々の研究はタンパク質の予測における大きなギャップを埋め、タンパク質配列を理解するのに必要なドメイン知識の解読に一歩近づいた。
論文参考訳（メタデータ） (2023-02-24T10:31:45Z)
Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文参考訳（メタデータ） (2022-04-06T02:18:41Z)
Pre-training Co-evolutionary Protein Representation via A Pairwise Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。 Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文参考訳（メタデータ） (2021-10-29T04:01:32Z)
Profile Prediction: An Alignment-Based Pre-Training Task for Protein Sequence Models [11.483725773928382]
タンパク質予測に対する最近のディープラーニングアプローチは、ラベルなしデータによる事前学習が下流タスクに有用な表現をもたらすことを示している。我々は、複数の配列アライメントから導かれるタンパク質プロファイルを直接予測する、新しい事前学習タスクを導入する。以上の結果から, タンパク質配列モデルが生物学的に誘発される誘導バイアスの活用の恩恵を受ける可能性が示唆された。
論文参考訳（メタデータ） (2020-12-01T01:01:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。