論文の概要: LA4SR: illuminating the dark proteome with generative AI
- arxiv url: http://arxiv.org/abs/2411.06798v1
- Date: Mon, 11 Nov 2024 08:51:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:11:41.319773
- Title: LA4SR: illuminating the dark proteome with generative AI
- Title(参考訳): LA4SR: 生成AIによる暗黒プロテオームの照明
- Authors: David R. Nelson, Ashish Kumar Jaiswal, Noha Ismail, Alexandra Mystikou, Kourosh Salehi-Ashtiani,
- Abstract要約: 我々は、微生物配列分類のためのオープンソースのAI言語モデル(LM)を再設計した。
F1のスコアは95点に達し、16,580倍速く動作した。
我々は、AI生成プロセスにアミノ酸パターンをもたらすカスタムAI説明可能性ソフトウェアツールを提供する。
- 参考スコア(独自算出の注目度): 39.58317527488534
- License:
- Abstract: AI language models (LMs) show promise for biological sequence analysis. We re-engineered open-source LMs (GPT-2, BLOOM, DistilRoBERTa, ELECTRA, and Mamba, ranging from 70M to 12B parameters) for microbial sequence classification. The models achieved F1 scores up to 95 and operated 16,580x faster and at 2.9x the recall of BLASTP. They effectively classified the algal dark proteome - uncharacterized proteins comprising about 65% of total proteins - validated on new data including a new, complete Hi-C/Pacbio Chlamydomonas genome. Larger (>1B) LA4SR models reached high accuracy (F1 > 86) when trained on less than 2% of available data, rapidly achieving strong generalization capacity. High accuracy was achieved when training data had intact or scrambled terminal information, demonstrating robust generalization to incomplete sequences. Finally, we provide custom AI explainability software tools for attributing amino acid patterns to AI generative processes and interpret their outputs in evolutionary and biophysical contexts.
- Abstract(参考訳): AI言語モデル(LM)は、生物学的配列解析の可能性を示している。
微生物配列分類のためのオープンソースLM(GPT-2, BLOOM, DistilRoBERTa, ELECTRA, Mamba)を再設計した。
F1のスコアは95点に達し、BLASTPのリコールの2.9倍で16,580倍速く動作した。
彼らは、新しい完全なHi-C/Pacbio Chlamydomonasゲノムを含む新しいデータに基づいて、アルガルダークプロテオーム(全タンパク質の約65%)を効果的に分類した。
より大規模な(>1B)LA4SRモデル(F1 > 86)は、2%未満のデータでトレーニングされた時に高い精度(F1 > 86)に達した。
トレーニングデータに終端情報が無傷またはスクランブルされ、不完全列への堅牢な一般化が証明された時に高い精度が達成された。
最後に、AI生成プロセスにアミノ酸パターンを帰属させ、その出力を進化的および生物物理学的な文脈で解釈するカスタムAI説明可能性ソフトウェアツールを提供する。
関連論文リスト
- Design Proteins Using Large Language Models: Enhancements and Comparative Analyses [12.140433802768733]
我々は、Mistral-7B1、Llama-2-7B2、Llama-3-8B3、gemma-7B4を含む事前訓練されたLLM群を採用し、有効なタンパク質配列を生成する。
我々はこれらのモデルを再訓練し、タンパク質関連データを処理し、生物学的に実現可能なタンパク質構造の生成を保証する。
実験の結果, 限られたデータであっても, 適応されたモデルは, 確立されたタンパク質中心モデルに匹敵する効率を示すことがわかった。
論文 参考訳(メタデータ) (2024-08-12T08:17:27Z) - MSAGPT: Neural Prompting Protein Structure Prediction via MSA Generative Pre-Training [48.398329286769304]
マルチシークエンスアライメント(MSA)は、タンパク質ファミリーの進化的軌道を明らかにする上で重要な役割を担っている。
MSAGPTは、低MSA状態下でのMSA生成前訓練を通じてタンパク質構造予測を促進する新しいアプローチである。
論文 参考訳(メタデータ) (2024-06-08T04:23:57Z) - DisorderUnetLM: Validating ProteinUnet for efficient protein intrinsic disorder prediction [0.0]
内因性障害領域の予測は、タンパク質の機能やダイナミクスを理解する上で重要な意味を持つ。
近年,タンパク質言語モデル(pLM)に基づく新しい世代の予測器が出現している。
本稿では、タンパク質Unetの考え方に基づく新しい障害UnetLM障害予測器について紹介する。
論文 参考訳(メタデータ) (2024-04-11T20:14:14Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - Retrieved Sequence Augmentation for Protein Representation Learning [40.13920287967866]
本稿では,タンパク質表現学習のための検索シーケンス拡張について,アライメントや前処理を伴わずに導入する。
本モデルでは,新しいタンパク質ドメインに移行し,デノボタンパク質の予測においてMSAトランスフォーマーより優れていることを示す。
我々の研究はタンパク質の予測における大きなギャップを埋め、タンパク質配列を理解するのに必要なドメイン知識の解読に一歩近づいた。
論文 参考訳(メタデータ) (2023-02-24T10:31:45Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - ProGen2: Exploring the Boundaries of Protein Language Models [15.82416400246896]
タンパク質言語モデルであるProGen2を導入し、最大6.4Bのパラメータに拡張する。
ProGen2モデルは、観察された進化系列の分布を捉える際に、最先端の性能を示す。
モデルのサイズが大きくなり, タンパク質配列の数が多くなりつつあるため, タンパク質配列モデルに提供されるデータ分布に重点を置く必要があることが示唆された。
論文 参考訳(メタデータ) (2022-06-27T17:55:02Z) - ProtTrans: Towards Cracking the Language of Life's Code Through
Self-Supervised Deep Learning and High Performance Computing [2.747785739760799]
計算生物学とバイオインフォマティクスは、NLPから抽出された言語モデルに理想的なタンパク質配列からの膨大なデータ金鉱を提供する。
そこで我々は,最大393億アミノ酸を含むUniRefとBFDのデータに基づいて,2つの自己回帰モデル(Transformer-XL, XLNet)と4つの自己エンコーダモデル(BERT, Albert, Electra, T5)を訓練した。
残余ごとの予測では、最も情報に富んだ埋め込み(ProtT5)の転送は、進化的な情報を用いることなく、初めて最先端技術を上回った。
論文 参考訳(メタデータ) (2020-07-13T07:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。