論文の概要: Rethinking Text-based Protein Understanding: Retrieval or LLM?
- arxiv url: http://arxiv.org/abs/2505.20354v3
- Date: Wed, 11 Jun 2025 07:48:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-12 23:41:16.691133
- Title: Rethinking Text-based Protein Understanding: Retrieval or LLM?
- Title(参考訳): テキストベースのタンパク質理解の再考:検索かLLMか?
- Authors: Juntong Wu, Zijing Liu, He Cao, Hao Li, Bin Feng, Zishan Shu, Ke Yu, Li Yuan, Yu Li,
- Abstract要約: タンパク質テキストモデルは、タンパク質の生成と理解において大きな注目を集めている。
現在のアプローチでは、タンパク質関連の知識を、継続した事前学習とマルチモーダルアライメントを通じて、大きな言語モデルに統合することに重点を置いている。
そこで本研究では,タンパク質間テキスト生成のための微調整LDMを著しく上回り,学習不要シナリオにおける精度と効率性を示す検索強化手法を提案する。
- 参考スコア(独自算出の注目度): 26.278517638774005
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In recent years, protein-text models have gained significant attention for their potential in protein generation and understanding. Current approaches focus on integrating protein-related knowledge into large language models through continued pretraining and multi-modal alignment, enabling simultaneous comprehension of textual descriptions and protein sequences. Through a thorough analysis of existing model architectures and text-based protein understanding benchmarks, we identify significant data leakage issues present in current benchmarks. Moreover, conventional metrics derived from natural language processing fail to accurately assess the model's performance in this domain. To address these limitations, we reorganize existing datasets and introduce a novel evaluation framework based on biological entities. Motivated by our observation, we propose a retrieval-enhanced method, which significantly outperforms fine-tuned LLMs for protein-to-text generation and shows accuracy and efficiency in training-free scenarios. Our code and data can be seen at https://github.com/IDEA-XL/RAPM.
- Abstract(参考訳): 近年、タンパク質・テキスト・モデルは、タンパク質の生成と理解において大きな注目を集めている。
現在のアプローチは、継続した事前訓練とマルチモーダルアライメントを通じて、タンパク質関連の知識を大規模言語モデルに統合することに集中しており、テキスト記述とタンパク質配列の同時理解を可能にしている。
既存のモデルアーキテクチャとテキストベースのタンパク質理解ベンチマークを徹底的に分析することにより、現在のベンチマークで発生している重要なデータ漏洩問題を特定する。
さらに、自然言語処理から派生した従来のメトリクスは、この領域におけるモデルの性能を正確に評価することができない。
これらの制約に対処するため、既存のデータセットを再編成し、生物学的実体に基づく新しい評価フレームワークを導入する。
そこで本研究では,タンパク質間テキスト生成における微調整LDMの精度を著しく向上し,学習自由シナリオにおける精度と効率性を示す検索強化手法を提案する。
私たちのコードとデータはhttps://github.com/IDEA-XL/RAPMで確認できます。
関連論文リスト
- Prot2Chat: Protein LLM with Early-Fusion of Text, Sequence and Structure [7.9473027178525975]
タンパク質配列と構造情報を統一的にエンコードするために,タンパク質MPNNを改変した。
我々は,大規模言語モデル(LLM)を用いて質問をベクトルにエンコードし,タンパク質情報を仮想トークンに圧縮するタンパク質テキストアダプタを開発した。
論文 参考訳(メタデータ) (2025-02-07T05:23:16Z) - Semantic Consistency Regularization with Large Language Models for Semi-supervised Sentiment Analysis [20.503153899462323]
本稿では,半教師付き感情分析のためのフレームワークを提案する。
テキストを意味的に拡張する2つのプロンプト戦略を導入する。
実験により,従来の半教師付き手法よりも優れた性能が得られた。
論文 参考訳(メタデータ) (2025-01-29T12:03:11Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Endowing Protein Language Models with Structural Knowledge [5.587293092389789]
本稿では,タンパク質構造データを統合することにより,タンパク質言語モデルを強化する新しいフレームワークを提案する。
PST(Protein Structure Transformer)と呼ばれる精製モデルは、小さなタンパク質構造データベース上でさらに事前訓練されている。
PSTは、タンパク質配列の最先端基盤モデルであるESM-2を一貫して上回り、タンパク質機能予測の新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2024-01-26T12:47:54Z) - Progressive Multi-Modality Learning for Inverse Protein Folding [47.095862120116976]
マルチモーダルトランスファー学習を利用するMMDesignと呼ばれる新しいタンパク質設計パラダイムを提案する。
MMDesignは、事前訓練された構造モジュールと事前訓練されたコンテキストモジュールを組み合わせる最初のフレームワークである。
実験結果は、小さなデータセットでのみトレーニングした結果、MMDesignが様々な公開ベンチマークのベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-12-11T10:59:23Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。