Fugu-MT 論文翻訳(概要): {\lambda}-Scaled-Attention: A Novel Fast Attention Mechanism for Efficient Modeling of Protein Sequences

論文の概要: {\lambda}-Scaled-Attention: A Novel Fast Attention Mechanism for Efficient Modeling of Protein Sequences

arxiv url: http://arxiv.org/abs/2201.02912v1
Date: Sun, 9 Jan 2022 03:04:23 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-12 04:07:19.792458
Title: {\lambda}-Scaled-Attention: A Novel Fast Attention Mechanism for Efficient Modeling of Protein Sequences
Title（参考訳）: {\lambda}-scaled-attention:タンパク質配列の効率的なモデリングのための新しい高速注意機構
Authors: Ashish Ranjan, Md Shah Fahad, Akshay Deepak
Abstract要約: 注意に基づくディープネットワークは、NLPの分野におけるテキストデータにうまく適用されている。タンパク質配列へのそれらの応用は、プレーンテキストの単語とは異なり、タンパク質の単語の弱い意味論のために、さらなる課題をもたらす。本稿では,タンパク質配列の高速かつ効率的なモデリングのための新しいラムダスケールアテンション手法を提案する。
参考スコア（独自算出の注目度）: 1.9744199942774268
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Attention-based deep networks have been successfully applied on textual data in the field of NLP. However, their application on protein sequences poses additional challenges due to the weak semantics of the protein words, unlike the plain text words. These unexplored challenges faced by the standard attention technique include (i) vanishing attention score problem and (ii) high variations in the attention distribution. In this regard, we introduce a novel {\lambda}-scaled attention technique for fast and efficient modeling of the protein sequences that addresses both the above problems. This is used to develop the {\lambda}-scaled attention network and is evaluated for the task of protein function prediction implemented at the protein sub-sequence level. Experiments on the datasets for biological process (BP) and molecular function (MF) showed significant improvements in the F1 score values for the proposed {\lambda}-scaled attention technique over its counterpart approach based on the standard attention technique (+2.01% for BP and +4.67% for MF) and state-of-the-art ProtVecGen-Plus approach (+2.61% for BP and +4.20% for MF). Further, fast convergence (converging in half the number of epochs) and efficient learning (in terms of very low difference between the training and validation losses) were also observed during the training process.
Abstract（参考訳）: 注意に基づくディープネットワークはNLPの分野におけるテキストデータに適用されている。しかし、それらのタンパク質配列への応用は、平易なテキスト語とは異なり、タンパク質語の弱い意味論のため、さらなる課題をもたらす。標準的な注意技術が直面する未解決の課題には (i)注意力低下問題、及び (ii)注目分布の変動が大きい。そこで本研究では,これらの問題に対処するタンパク質配列の高速かつ効率的なモデリングのために,新しい<lambda>スケールド・アテンション手法を提案する。これは {\lambda}-scaled attention networkの開発に使われ、タンパク質サブシーケンスレベルで実装されたタンパク質機能予測のタスクとして評価される。生物プロセス(BP)と分子機能(MF)のデータセットに関する実験では、標準の注目技術(BPは+2.01%、MFは+4.67%)と最先端のProtVecGen-Plusアプローチ(BPは+2.61%、MFは+4.20%)に基づいて、提案された「ラムダ」スケールの注意技術に対するF1スコアの値が大幅に改善された。さらに,学習過程では,高速な収束(エポック数の半分に収束)と効率的な学習(トレーニングと検証損失の差が非常に低い)も観察された。

関連論文リスト

AMix-1: A Pathway to Test-Time Scalable Protein Foundation Model [92.51919604882984]
本稿では,Flow Bayesian Networks上に構築された強力なタンパク質基盤モデルAMix-1を紹介する。 AMix-1は、事前学習のスケーリング法則、創発的能力分析、コンテキスト内学習機構、テスト時間スケーリングアルゴリズムを含む、体系的なトレーニング手法によって強化されている。この基盤を基盤として、タンパク質設計を汎用フレームワークに統合するためのマルチシーケンスアライメント(MSA)ベースのコンテキスト内学習戦略を考案した。
論文参考訳（メタデータ） (2025-07-11T17:02:25Z)
PLAME: Leveraging Pretrained Language Models to Generate Enhanced Protein Multiple Sequence Alignments [53.55710514466851]
タンパク質構造予測は、薬物の発見と生物学的機能の理解に不可欠である。ほとんどの折り畳みモデルは予測性能を高めるために多重シーケンスアライメント(MSA)に大きく依存している。我々は、事前学習されたタンパク質言語モデルからの進化的埋め込みを利用する新しいMSA設計モデルPLAMEを提案する。
論文参考訳（メタデータ） (2025-06-17T04:11:30Z)
ProtCLIP: Function-Informed Protein Multi-Modal Learning [18.61302416993122]
ProtCLIPは,機能認識タンパク質の埋め込みを表現した多モード基盤モデルである。当社のProtCLIPは,5つのクロスモーダル変換ベンチマークにおいて,平均75%の大幅な改善を実現している。実験により,タンパク質多量性基盤モデルとしてのProtCLIPの異常なポテンシャルが検証された。
論文参考訳（メタデータ） (2024-12-28T04:23:47Z)
SeqProFT: Applying LoRA Finetuning for Sequence-only Protein Property Predictions [8.112057136324431]
本研究では,ESM-2モデルのエンド・ツー・エンドの微調整を行うためにLoRA法を用いる。下流ネットワークにマルチヘッドアテンション機構を統合して、シーケンス特徴とコンタクトマップ情報を組み合わせる。
論文参考訳（メタデータ） (2024-11-18T12:40:39Z)
Position Specific Scoring Is All You Need? Revisiting Protein Sequence Classification Tasks [41.7345616221048]
タンパク質配列のPSS表現と文字列カーネルの概念を組み合わせた重み付きPSSカーネル行列(W-PSSKM)を提案する。この結果、タンパク質配列分類の他の多くのアプローチよりも優れた新しいカーネル関数がもたらされる。
論文参考訳（メタデータ） (2024-10-16T15:16:50Z)
NovoBench: Benchmarking Deep Learning-based De Novo Peptide Sequencing Methods in Proteomics [58.03989832372747]
Emphde novoペプチドシークエンシングのための初となるNovoBenchベンチマークを報告する。多様な質量スペクトルデータ、統合モデル、総合的な評価指標から構成される。 DeepNovo、PointNovo、Casanovo、InstaNovo、AdaNovo、$pi$-HelixNovoといった最近の手法が私たちのフレームワークに統合されています。
論文参考訳（メタデータ） (2024-06-16T08:23:21Z)
Beyond ESM2: Graph-Enhanced Protein Sequence Modeling with Efficient Clustering [24.415612744612773]
タンパク質は生命の過程に必須であり、進化と多様性を支えている。シークエンシング技術の進歩により数百万のタンパク質が明らかにされ、生物学的分析とAI開発のための高度な事前学習されたタンパク質モデルの必要性が強調されている。 FacebookのESM2は、これまでで最も先進的なタンパク質言語モデルであり、教師なし学習にマスク付き予測タスクを活用し、顕著な生化学的精度でアミノ酸表現を作成する。しかし、機能的なタンパク質の洞察の提供に欠けており、表現の質を高める機会を示唆している。本研究は,タンパク質ファミリー分類をESM2のトレーニングに組み込むことにより,このギャップに対処する。
論文参考訳（メタデータ） (2024-04-24T11:09:43Z)
DisorderUnetLM: Validating ProteinUnet for efficient protein intrinsic disorder prediction [0.0]
内因性障害領域の予測は、タンパク質の機能やダイナミクスを理解する上で重要な意味を持つ。近年,タンパク質言語モデル(pLM)に基づく新しい世代の予測器が出現している。本稿では、タンパク質Unetの考え方に基づく新しい障害UnetLM障害予測器について紹介する。
論文参考訳（メタデータ） (2024-04-11T20:14:14Z)
ContraNovo: A Contrastive Learning Approach to Enhance De Novo Peptide Sequencing [70.12220342151113]
ContraNovoは、コントラスト学習を利用してスペクトルとペプチドの関係を抽出する先駆的アルゴリズムである。 ContraNovoは、現代最先端のソリューションを一貫して誇張している。
論文参考訳（メタデータ） (2023-12-18T12:49:46Z)
Efficiently Predicting Protein Stability Changes Upon Single-point Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文参考訳（メタデータ） (2023-12-07T03:25:49Z)
Exploring Post-Training Quantization of Protein Language Models [9.562786130999188]
タンパク質言語モデルのための後学習量子化(PTQ)に関する研究(ProteinLMs) 我々の研究は、タンパク質膜の全重量と活性化を定量化する最初の試みである。非対称なアクティベーション値に対して一方向線形量子化を利用する新しいPTQ法を提案する。
論文参考訳（メタデータ） (2023-10-30T15:18:06Z)
Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文参考訳（メタデータ） (2022-04-06T02:18:41Z)
Pre-training Co-evolutionary Protein Representation via A Pairwise Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。 Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文参考訳（メタデータ） (2021-10-29T04:01:32Z)
EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。 EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文参考訳（メタデータ） (2021-05-11T03:40:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。