論文の概要: ProtIR: Iterative Refinement between Retrievers and Predictors for
Protein Function Annotation
- arxiv url: http://arxiv.org/abs/2402.07955v1
- Date: Sat, 10 Feb 2024 17:31:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 18:07:31.191721
- Title: ProtIR: Iterative Refinement between Retrievers and Predictors for
Protein Function Annotation
- Title(参考訳): ProtIR:RetrieverとPredictorsによるタンパク質機能アノテーションの反復的リファインメント
- Authors: Zuobai Zhang, Jiarui Lu, Vijil Chenthamarakshan, Aur\'elie Lozano,
Payel Das, Jian Tang
- Abstract要約: 本稿では,タンパク質間類似性モデリングを取り入れた関数予測器の改良を目的とした,新しい変分擬似類似性フレームワークProtIRを提案する。
ProtIRは、バニラ予測に基づく手法よりも約10%改善されている。
タンパク質言語モデルに基づく手法と同等の性能を発揮するが、大規模な事前学習は必要としない。
- 参考スコア(独自算出の注目度): 38.019425619750265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Protein function annotation is an important yet challenging task in biology.
Recent deep learning advancements show significant potential for accurate
function prediction by learning from protein sequences and structures.
Nevertheless, these predictor-based methods often overlook the modeling of
protein similarity, an idea commonly employed in traditional approaches using
sequence or structure retrieval tools. To fill this gap, we first study the
effect of inter-protein similarity modeling by benchmarking retriever-based
methods against predictors on protein function annotation tasks. Our results
show that retrievers can match or outperform predictors without large-scale
pre-training. Building on these insights, we introduce a novel variational
pseudo-likelihood framework, ProtIR, designed to improve function predictors by
incorporating inter-protein similarity modeling. This framework iteratively
refines knowledge between a function predictor and retriever, thereby combining
the strengths of both predictors and retrievers. ProtIR showcases around 10%
improvement over vanilla predictor-based methods. Besides, it achieves
performance on par with protein language model-based methods, yet without the
need for massive pre-training, highlighting the efficacy of our framework. Code
will be released upon acceptance.
- Abstract(参考訳): タンパク質機能アノテーションは、生物学において重要なが難しい課題である。
近年の深層学習の進歩は,タンパク質配列や構造から学ぶことによって,正確な機能予測に有意な可能性を示唆している。
しかしながら、これらの予測子に基づく手法は、しばしば、配列や構造検索ツールを用いた伝統的なアプローチでよく使われるタンパク質類似性のモデリングを見落としている。
このギャップを埋めるために、まず、タンパク質機能アノテーションタスクに対する予測子に対する検索手法のベンチマークによるタンパク質間類似性モデリングの効果について検討する。
以上の結果から,レトリバーは,大規模事前学習を行わずに,予測器にマッチしたり,性能を上回ったりできることがわかった。
これらの知見に基づいて,タンパク質間類似性モデリングを取り入れた関数予測器の改良を目的とした,新しい変分擬似類似性フレームワークProtIRを導入する。
このフレームワークは、関数予測器とレトリバーの間の知識を反復的に洗練し、予測器とレトリバーの両方の強みを結合する。
ProtIRは、バニラ予測方式よりも約10%改善されている。
さらに,タンパク言語モデルに基づく手法と同等の性能を発揮するが,大規模な事前学習は必要とせず,フレームワークの有効性を強調している。
コードは受理時にリリースされる。
関連論文リスト
- Structure-Informed Protein Language Model [38.019425619750265]
本稿では、構造情報をタンパク質言語モデルに抽出するためのリモートホモロジー検出の統合について紹介する。
この構造インフォームドトレーニングが下流タンパク質機能予測タスクに与える影響を評価する。
論文 参考訳(メタデータ) (2024-02-07T09:32:35Z) - FABind: Fast and Accurate Protein-Ligand Binding [127.7790493202716]
$mathbfFABind$はポケット予測とドッキングを組み合わせたエンドツーエンドモデルで、正確で高速なタンパク質-リガンド結合を実現する。
提案モデルでは,既存手法と比較して有効性と効率性に強い利点が示される。
論文 参考訳(メタデータ) (2023-10-10T16:39:47Z) - DeepGATGO: A Hierarchical Pretraining-Based Graph-Attention Model for
Automatic Protein Function Prediction [4.608328575930055]
自動タンパク質機能予測(AFP)は大規模多ラベル分類問題に分類される。
現在、一般的な手法は主にタンパク質関連情報と遺伝子オントロジー(GO)の用語を組み合わせて、最終的な機能予測を生成する。
本稿では,タンパク質配列とGO項ラベルを階層的に処理するシークエンスベースの階層予測手法であるDeepGATGOを提案する。
論文 参考訳(メタデータ) (2023-07-24T07:01:32Z) - Predicting protein variants with equivariant graph neural networks [0.0]
我々は,同変グラフニューラルネットワーク(EGNN)と配列に基づくアプローチによる有望なアミノ酸変異の同定能力の比較を行った。
提案する構造的アプローチは, より少ない分子で訓練しながら, 配列に基づくアプローチと競合する性能を実現する。
論文 参考訳(メタデータ) (2023-06-21T12:44:52Z) - Multi-level Protein Representation Learning for Blind Mutational Effect
Prediction [5.207307163958806]
本稿では,タンパク質構造解析のためのシーケンシャルおよび幾何学的アナライザをカスケードする,新しい事前学習フレームワークを提案する。
野生型タンパク質の自然選択をシミュレートすることにより、所望の形質に対する突然変異方向を誘導する。
提案手法は,多種多様な効果予測タスクに対して,パブリックデータベースと2つの新しいデータベースを用いて評価する。
論文 参考訳(メタデータ) (2023-06-08T03:00:50Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - Protein Representation Learning by Geometric Structure Pretraining [27.723095456631906]
既存のアプローチは通常、多くの未ラベルアミノ酸配列で事前訓練されたタンパク質言語モデルである。
まず,タンパク質の幾何学的特徴を学習するための単純かつ効果的なエンコーダを提案する。
関数予測と折り畳み分類の両タスクの実験結果から,提案した事前学習法は,より少ないデータを用いた最先端のシーケンスベース手法と同等あるいは同等であることがわかった。
論文 参考訳(メタデータ) (2022-03-11T17:52:13Z) - Using Genetic Programming to Predict and Optimize Protein Function [65.25258357832584]
我々は,進化的手法に基づく遺伝的プログラミングツールPOETを提案し,方向性進化におけるスクリーニングと変異原性を高める。
概念実証として, 化学交換飽和移動機構によって検出されたMRIコントラストを生成するペプチドを用いる。
以上の結果から,POETのような計算モデリングツールは,従来よりも400%優れた機能性を持つペプチドを見つけるのに有効であることが示唆された。
論文 参考訳(メタデータ) (2022-02-08T18:08:08Z) - EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based
Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。
EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。