論文の概要: ProtT3: Protein-to-Text Generation for Text-based Protein Understanding
- arxiv url: http://arxiv.org/abs/2405.12564v1
- Date: Tue, 21 May 2024 08:06:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 13:58:57.185815
- Title: ProtT3: Protein-to-Text Generation for Text-based Protein Understanding
- Title(参考訳): ProtT3: テキストベースのタンパク質理解のためのタンパク質対テキスト生成
- Authors: Zhiyuan Liu, An Zhang, Hao Fei, Enzhi Zhang, Xiang Wang, Kenji Kawaguchi, Tat-Seng Chua,
- Abstract要約: 言語モデル(LM)は、タンパク質のテキスト記述を理解するのに優れている。
タンパク質言語モデル(PLM)は、タンパク質データを理解し、高品質な表現に変換するが、テキストを処理するのに苦労する。
ProtT3は、テキストベースのタンパク質理解のための、タンパク質からテキストへの生成のためのフレームワークである。
- 参考スコア(独自算出の注目度): 88.43323947543996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language Models (LMs) excel in understanding textual descriptions of proteins, as evident in biomedical question-answering tasks. However, their capability falters with raw protein data, such as amino acid sequences, due to a deficit in pretraining on such data. Conversely, Protein Language Models (PLMs) can understand and convert protein data into high-quality representations, but struggle to process texts. To address their limitations, we introduce ProtT3, a framework for Protein-to-Text Generation for Text-based Protein Understanding. ProtT3 empowers an LM to understand protein sequences of amino acids by incorporating a PLM as its protein understanding module, enabling effective protein-to-text generation. This collaboration between PLM and LM is facilitated by a cross-modal projector (i.e., Q-Former) that bridges the modality gap between the PLM's representation space and the LM's input space. Unlike previous studies focusing on protein property prediction and protein-text retrieval, we delve into the largely unexplored field of protein-to-text generation. To facilitate comprehensive benchmarks and promote future research, we establish quantitative evaluations for protein-text modeling tasks, including protein captioning, protein question-answering, and protein-text retrieval. Our experiments show that ProtT3 substantially surpasses current baselines, with ablation studies further highlighting the efficacy of its core components. Our code is available at https://github.com/acharkq/ProtT3.
- Abstract(参考訳): 言語モデル(LM)は、生物医学的な質問応答タスクで明らかなように、タンパク質のテキスト記述を理解するのに優れている。
しかし、それらの能力は、アミノ酸配列などの生のタンパク質データとともに、これらのデータに対する事前訓練の欠如によって弱まる。
逆に、タンパク質言語モデル(PLM)は、タンパク質データを理解し、高品質な表現に変換するが、テキストの処理に苦労する。
これらの制限に対処するため,テキストベースタンパク質理解のためのProtT3(Prott-to-Text Generation for Text-based Protein Understanding)を提案する。
ProtT3は、PLMをそのタンパク質理解モジュールとして組み込むことで、アミノ酸のタンパク質配列を理解することを可能にし、効果的なタンパク質対テキスト生成を可能にする。
PLMとLMの協調は、PLMの表現空間とLMの入力空間の間のモダリティギャップを橋渡しするクロスモーダルプロジェクタ(Q-Former)によって促進される。
タンパク質特性予測とタンパク質-テキスト検索に焦点を当てた以前の研究とは異なり、タンパク質-テキスト生成のほとんど探索されていない分野を探索する。
そこで我々は,タンパク質キャプション,タンパク質問合せ,タンパク質文検索など,タンパク質文モデリングタスクの定量的評価を行う。
実験の結果, ProtT3は現在のベースラインを大幅に超え, コアコンポーネントの有効性をさらに強調した。
私たちのコードはhttps://github.com/acharkq/ProtT3.comから入手可能です。
関連論文リスト
- Computational Protein Science in the Era of Large Language Models (LLMs) [54.35488233989787]
計算タンパク質科学(Computational protein science)は、タンパク質配列構造-機能パラダイムにおける知識を明らかにすること、および応用を開発することを目的としている。
最近、言語モデル (Language Models, PLM) は、前例のない言語処理と一般化能力のために、AIのマイルストーンとして登場した。
論文 参考訳(メタデータ) (2025-01-17T16:21:18Z) - EvoLlama: Enhancing LLMs' Understanding of Proteins via Multimodal Structure and Sequence Representations [28.298740080002077]
タンパク質を理解するための現在の大規模言語モデル(LLM)は、主にアミノ酸配列をテキストモダリティとして扱う。
EvoLlamaは構造ベースのエンコーダ、配列ベースのタンパク質エンコーダ、およびタンパク質理解のためのLLMを接続するフレームワークである。
実験の結果,EvoLlamaのタンパク質理解能力は著しく向上した。
論文 参考訳(メタデータ) (2024-12-16T10:01:33Z) - ProtDAT: A Unified Framework for Protein Sequence Design from Any Protein Text Description [7.198238666986253]
記述型テキスト入力からタンパク質を設計できるde novo微細化フレームワークを提案する。
Prot DATは、タンパク質データの本質的な特性に基づいて、配列とテキストを分離されたエンティティではなく、結合的な全体として統一する。
実験の結果,Prot DATはタンパク質配列生成の最先端性能を実現し,有理性,機能,構造的類似性,妥当性に優れていた。
論文 参考訳(メタデータ) (2024-12-05T11:05:46Z) - Long-context Protein Language Model [76.95505296417866]
言語モデル(LM)の自己教師による訓練は、有意義な表現の学習や創薬設計において、タンパク質配列に大きな成功を収めている。
ほとんどのタンパク質LMは、短い文脈長を持つ個々のタンパク質に基づいて訓練されたトランスフォーマーアーキテクチャに基づいている。
そこで我々は,選択的構造化状態空間モデルから構築した代替のタンパク質LMアーキテクチャであるBiMamba-Sに基づくLC-PLMを提案する。
また、第2段階のトレーニングのために、タンパク質-タンパク質相互作用グラフの文脈化を行うLC-PLM-Gも導入した。
論文 参考訳(メタデータ) (2024-10-29T16:43:28Z) - ProLLM: Protein Chain-of-Thoughts Enhanced LLM for Protein-Protein Interaction Prediction [54.132290875513405]
タンパク質-タンパク質相互作用(PPI)の予測は、生物学的機能や疾患を理解する上で重要である。
PPI予測に対する従来の機械学習アプローチは、主に直接的な物理的相互作用に焦点を当てていた。
PPIに適したLLMを用いた新しいフレームワークProLLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T05:32:42Z) - ProtLLM: An Interleaved Protein-Language LLM with Protein-as-Word Pre-Training [82.37346937497136]
本稿では,タンパク質中心タスクとタンパク質言語タスクの両方を対象とした多機能多言語多言語言語モデル (LLM) を提案する。
ProtLLMはユニークな動的タンパク質実装機構を備えており、複雑な入力を処理できる。
専門的なタンパク質語彙を開発することで、自然言語だけでなく、膨大な候補からタンパク質を予測できる能力をモデルに装備する。
論文 参考訳(メタデータ) (2024-02-28T01:29:55Z) - A Text-guided Protein Design Framework [106.79061950107922]
本稿では,タンパク質設計のためのテキスト記述を利用するマルチモーダルフレームワークであるProteinDTを提案する。
タンパク質DTは以下の3つのステップから構成される:2つのモダリティの表現を整列するProteinCLAP、テキストモダリティからタンパク質表現を生成するファシリテーター、表現からタンパク質配列を生成するデコーダ。
本研究では,(1)テキスト誘導タンパク質生成における90%以上の精度,(2)ゼロショットテキスト誘導タンパク質編集タスクにおけるベストヒット率,(3)タンパク質特性予測ベンチマーク6項目中4項目における優れた性能の3つの課題に対するProteinDTの有効性を定量的に検証した。
論文 参考訳(メタデータ) (2023-02-09T12:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。