論文の概要: Enhancing Protein Predictive Models via Proteins Data Augmentation: A
Benchmark and New Directions
- arxiv url: http://arxiv.org/abs/2403.00875v1
- Date: Fri, 1 Mar 2024 07:58:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 16:19:22.700948
- Title: Enhancing Protein Predictive Models via Proteins Data Augmentation: A
Benchmark and New Directions
- Title(参考訳): タンパク質データ拡張によるタンパク質予測モデルの強化:ベンチマークと新しい方向性
- Authors: Rui Sun, Lirong Wu, Haitao Lin, Yufei Huang, Stan Z. Li
- Abstract要約: 本稿では,これまで画像やテキストに用いたデータ拡張手法をタンパク質に拡張し,タンパク質関連タスクでこれらの手法をベンチマークする。
本稿では,2つの新規な意味レベルタンパク質増強法,すなわち,統合的グラディエント置換法とバック翻訳置換法を提案する。
最後に、拡張および提案された拡張を拡張プールに統合し、シンプルで効果的なフレームワークであるAutomated Protein Augmentation (APA)を提案する。
- 参考スコア(独自算出の注目度): 58.819567030843025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Augmentation is an effective alternative to utilize the small amount of
labeled protein data. However, most of the existing work focuses on design-ing
new architectures or pre-training tasks, and relatively little work has studied
data augmentation for proteins. This paper extends data augmentation techniques
previously used for images and texts to proteins and then benchmarks these
techniques on a variety of protein-related tasks, providing the first
comprehensive evaluation of protein augmentation. Furthermore, we propose two
novel semantic-level protein augmentation methods, namely Integrated Gradients
Substitution and Back Translation Substitution, which enable protein
semantic-aware augmentation through saliency detection and biological
knowledge. Finally, we integrate extended and proposed augmentations into an
augmentation pool and propose a simple but effective framework, namely
Automated Protein Augmentation (APA), which can adaptively select the most
suitable augmentation combinations for different tasks. Extensive experiments
have shown that APA enhances the performance of five protein related tasks by
an average of 10.55% across three architectures compared to vanilla
implementations without augmentation, highlighting its potential to make a
great impact on the field.
- Abstract(参考訳): 増強は、少量のラベル付きタンパク質データを利用する効果的な代替手段である。
しかし、既存の研究のほとんどは新しいアーキテクチャや事前訓練タスクの設計に重点を置いており、タンパク質のデータ拡張の研究は比較的少ない。
本稿では,これまでタンパク質に画像やテキストに用いたデータ拡張技術を拡張し,タンパク質関連タスクのベンチマークを行い,タンパク質増量に関する総合的な評価を行った。
さらに, 塩分検出と生物学的知識によるタンパク質意味認識の増強を可能にする, 統合的勾配置換法と逆変換置換法という2つの新しい意味レベルのタンパク質増強法を提案する。
最後に、拡張および提案された拡張を拡張プールに統合し、異なるタスクに最適な拡張組み合わせを適応的に選択できる、シンプルで効果的なフレームワークであるAutomated Protein Augmentation (APA)を提案する。
大規模な実験により、APAは拡張のないバニラ実装と比較して、3つのアーキテクチャで平均10.55%の5つのタンパク質関連タスクのパフォーマンスを向上し、この分野に大きな影響を与える可能性を示している。
関連論文リスト
- GOProteinGNN: Leveraging Protein Knowledge Graphs for Protein Representation Learning [27.192150057715835]
GOProteinGNNは、タンパク質知識グラフ情報を統合することにより、タンパク質言語モデルを強化する新しいアーキテクチャである。
我々のアプローチは、個々のアミノ酸レベルとタンパク質レベルの両方で情報の統合を可能にし、包括的で効果的な学習プロセスを可能にします。
論文 参考訳(メタデータ) (2024-07-31T17:54:22Z) - Multi-Modal CLIP-Informed Protein Editing [8.927362207499181]
マルチモーダル学習による効率的なCLIPインフォームドタンパク質編集のためのProtETと呼ばれる新しい手法を提案する。
我々のアプローチは2つの段階から構成される: 事前学習段階において、コントラスト学習は2つの大きな言語モデル(LLM)によって符号化されたタンパク質-バイオテキスト表現を整列する。
タンパク質編集段階では、対象タンパク質配列を生成するための最終編集条件として、命令テキストと元のタンパク質配列の編集から融合した特徴がある。
論文 参考訳(メタデータ) (2024-07-27T16:41:08Z) - Boosting Protein Language Models with Negative Sample Mining [20.721167029530168]
本稿では,タンパク質表現学習分野における大規模言語モデル向上のための先駆的手法を提案する。
私たちの主な貢献は、共進化の知識への過度な信頼を関連付けるための洗練プロセスにあります。
本手法は,この新たなアプローチを活かして,注目スコア空間内でのトランスフォーマーベースモデルのトレーニングを支援する。
論文 参考訳(メタデータ) (2024-05-28T07:24:20Z) - NaNa and MiGu: Semantic Data Augmentation Techniques to Enhance Protein Classification in Graph Neural Networks [60.48306899271866]
本稿では,背骨化学および側鎖生物物理情報をタンパク質分類タスクに組み込む新しい意味データ拡張手法を提案する。
具体的には, 分子生物学的, 二次構造, 化学結合, およびタンパク質のイオン特性を活用し, 分類作業を容易にする。
論文 参考訳(メタデータ) (2024-03-21T13:27:57Z) - ProtLLM: An Interleaved Protein-Language LLM with Protein-as-Word Pre-Training [82.37346937497136]
本稿では,タンパク質中心タスクとタンパク質言語タスクの両方を対象とした多機能多言語多言語言語モデル (LLM) を提案する。
ProtLLMはユニークな動的タンパク質実装機構を備えており、複雑な入力を処理できる。
専門的なタンパク質語彙を開発することで、自然言語だけでなく、膨大な候補からタンパク質を予測できる能力をモデルに装備する。
論文 参考訳(メタデータ) (2024-02-28T01:29:55Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - Improving few-shot learning-based protein engineering with evolutionary
sampling [0.0]
本稿では,高価なウェットラボテストサイクルを加速することを目的とした,新規なタンパク質設計のための数発の学習手法を提案する。
提案手法は, 所望のタンパク質機能に対する個別のフィットネスランドスケープを生成する半教師ありトランスファー学習法と, 新たな進化的モンテカルロ連鎖サンプリングアルゴリズムとから構成される。
予測された高適合性遺伝子アクチベーターを実験的にスクリーニングすることにより,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-05-23T23:07:53Z) - A Text-guided Protein Design Framework [106.79061950107922]
本稿では,タンパク質設計のためのテキスト記述を利用するマルチモーダルフレームワークであるProteinDTを提案する。
タンパク質DTは以下の3つのステップから構成される:2つのモダリティの表現を整列するProteinCLAP、テキストモダリティからタンパク質表現を生成するファシリテーター、表現からタンパク質配列を生成するデコーダ。
本研究では,(1)テキスト誘導タンパク質生成における90%以上の精度,(2)ゼロショットテキスト誘導タンパク質編集タスクにおけるベストヒット率,(3)タンパク質特性予測ベンチマーク6項目中4項目における優れた性能の3つの課題に対するProteinDTの有効性を定量的に検証した。
論文 参考訳(メタデータ) (2023-02-09T12:59:16Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - OntoProtein: Protein Pretraining With Gene Ontology Embedding [36.92674447484136]
GO(Gene Ontology)の構造をタンパク質事前学習モデルに活用する最初の汎用フレームワークであるOntoProteinを提案する。
我々はGOとその関連タンパク質からなる新しい大規模知識グラフを構築し、遺伝子アノテーションのテキストやタンパク質配列はグラフ内の全てのノードを記述する。
論文 参考訳(メタデータ) (2022-01-23T14:49:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。