論文の概要: Scaling Up ESM2 Architectures for Long Protein Sequences Analysis: Long and Quantized Approaches
- arxiv url: http://arxiv.org/abs/2501.07747v1
- Date: Mon, 13 Jan 2025 23:26:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:28:19.810542
- Title: Scaling Up ESM2 Architectures for Long Protein Sequences Analysis: Long and Quantized Approaches
- Title(参考訳): 長鎖タンパク質配列解析のためのESM2アーキテクチャのスケールアップ:長鎖および量子化アプローチ
- Authors: Gabriel Bianchin de Oliveira, Helio Pedrini, Zanoni Dias,
- Abstract要約: 本稿では,ESM2アーキテクチャの長大かつ量子化されたバージョンを提示し,入力サイズを2,048アミノ酸に2倍にする。
- 参考スコア(独自算出の注目度): 1.78761445544895
- License:
- Abstract: Various approaches utilizing Transformer architectures have achieved state-of-the-art results in Natural Language Processing (NLP). Based on this success, numerous architectures have been proposed for other types of data, such as in biology, particularly for protein sequences. Notably among these are the ESM2 architectures, pre-trained on billions of proteins, which form the basis of various state-of-the-art approaches in the field. However, the ESM2 architectures have a limitation regarding input size, restricting it to 1,022 amino acids, which necessitates the use of preprocessing techniques to handle sequences longer than this limit. In this paper, we present the long and quantized versions of the ESM2 architectures, doubling the input size limit to 2,048 amino acids.
- Abstract(参考訳): トランスフォーマーアーキテクチャを利用した様々なアプローチは、自然言語処理(NLP)において最先端の結果を得た。
この成功に基づいて、生物学、特にタンパク質配列など、他の種類のデータに対して多くのアーキテクチャが提案されている。
中でも注目すべきは、何十億ものタンパク質で事前訓練されたESM2アーキテクチャであり、この分野における様々な最先端のアプローチの基礎となっている。
しかし、ESM2アーキテクチャは入力サイズに関する制限があり、1,022アミノ酸に制限されているため、この制限より長いシーケンスを扱うために前処理技術を使う必要がある。
本稿では,ESM2アーキテクチャの長大かつ量子化されたバージョンを提示し,入力サイズを2,048アミノ酸に2倍にする。
関連論文リスト
- ProtGO: A Transformer based Fusion Model for accurately predicting Gene Ontology (GO) Terms from full scale Protein Sequences [0.11049608786515838]
本稿では,遺伝子オントロジーの用語をフルスケールのタンパク質配列から予測できるトランスフォーマーベースの融合モデルを提案する。
このモデルは、酵素の構造内の短期的および長期的依存関係の両方を理解することができ、様々なGO用語に関連するモチーフを正確に識別することができる。
論文 参考訳(メタデータ) (2024-12-08T02:09:45Z) - Structure Language Models for Protein Conformation Generation [66.42864253026053]
伝統的な物理学に基づくシミュレーション手法は、しばしばサンプリング平衡整合に苦しむ。
深い生成モデルは、より効率的な代替としてタンパク質のコンホメーションを生成することを約束している。
本稿では,効率的なタンパク質コンホメーション生成のための新しいフレームワークとして構造言語モデリングを紹介する。
論文 参考訳(メタデータ) (2024-10-24T03:38:51Z) - DPLM-2: A Multimodal Diffusion Protein Language Model [75.98083311705182]
DPLM-2は, 離散拡散タンパク質言語モデル(DPLM)を拡張し, 配列と構造の両方に適合する多モーダルタンパク質基盤モデルである。
DPLM-2は、配列と構造、およびその限界と条件の結合分布を学習する。
実験によりDPLM-2は高度に互換性のあるアミノ酸配列とそれに対応する3D構造を同時に生成できることが示された。
論文 参考訳(メタデータ) (2024-10-17T17:20:24Z) - Sequence-Augmented SE(3)-Flow Matching For Conditional Protein Backbone Generation [55.93511121486321]
タンパク質構造生成のための新しいシーケンス条件付きフローマッチングモデルFoldFlow-2を紹介する。
我々は、以前の作業のPDBデータセットよりも桁違いに大きい新しいデータセットでFoldFlow-2を大規模にトレーニングします。
我々はFoldFlow-2が従来のタンパク質構造に基づく生成モデルよりも優れていることを実証的に観察した。
論文 参考訳(メタデータ) (2024-05-30T17:53:50Z) - Mechanistic Design and Scaling of Hybrid Architectures [114.3129802943915]
我々は、様々な計算プリミティブから構築された新しいハイブリッドアーキテクチャを特定し、テストする。
本研究では,大規模計算最適法則と新しい状態最適スケーリング法則解析を用いて,結果のアーキテクチャを実験的に検証する。
我々は,MAD合成法と計算-最適パープレキシティを相関させ,新しいアーキテクチャの正確な評価を可能にする。
論文 参考訳(メタデータ) (2024-03-26T16:33:12Z) - Diffusion on language model encodings for protein sequence generation [0.5182791771937247]
本稿では,タンパク質言語モデル表現で動作する潜在拡散フレームワークであるDiMAを提案する。
私たちのフレームワークは、新しい、高品質で多様なタンパク質配列を一貫して生成します。
これは、タンパク質ファミリーの生成、モチーフの足場と埋め込み、折りたたみ特異的な配列設計を含む条件付き生成タスクをサポートする。
論文 参考訳(メタデータ) (2024-03-06T14:15:20Z) - Improving Pixel-based MIM by Reducing Wasted Modeling Capability [77.99468514275185]
浅い層から低レベルの特徴を明示的に利用して画素再構成を支援する手法を提案する。
私たちの知る限りでは、等方的アーキテクチャのためのマルチレベル特徴融合を体系的に研究するのは、私たちは初めてです。
提案手法は, 微調整では1.2%, 線形探索では2.8%, セマンティックセグメンテーションでは2.6%など, 大幅な性能向上をもたらす。
論文 参考訳(メタデータ) (2023-08-01T03:44:56Z) - Continuous Cartesian Genetic Programming based representation for
Multi-Objective Neural Architecture Search [12.545742558041583]
我々は、より複雑で高効率な畳み込みニューラルネットワーク(CNN)を設計するための新しいアプローチを提案する。
我々のアプローチは、ニューラルネットワーク探索(NAS)のためのカルテシアン遺伝的プログラミング(CGP)に基づく実ベースCNNとブロックチェーンCNNの表現を組み合わせたものである。
それらが考慮する探索空間の粒度が異なる2つの変種が導入された。
論文 参考訳(メタデータ) (2023-06-05T07:32:47Z) - MAS2HP: A Multi Agent System to predict protein structure in 2D HP model [0.0]
本稿では,2次元疎水性-親水性モデルにおけるエージェント・ベース・モデリング(ABM)を用いたタンパク質構造予測の新しい手法を提案する。
我々はこのアルゴリズムを2次元疎水性-親水性格子モデルにおいて20-50メルのベンチマークシーケンスで検証した。
論文 参考訳(メタデータ) (2022-05-11T05:17:47Z) - Inter-layer Transition in Neural Architecture Search [89.00449751022771]
本論文では、連結エッジのアーキテクチャ重み間の依存性を明示的にモデル化する。
5つのベンチマーク実験により、層間依存性のモデル化の価値を確認し、提案手法が最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-11-30T03:33:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。