Fugu-MT 論文翻訳(概要): ProtFIM: Fill-in-Middle Protein Sequence Design via Protein Language Models

論文の概要: ProtFIM: Fill-in-Middle Protein Sequence Design via Protein Language Models

arxiv url: http://arxiv.org/abs/2303.16452v1
Date: Wed, 29 Mar 2023 04:35:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-30 16:06:33.345419
Title: ProtFIM: Fill-in-Middle Protein Sequence Design via Protein Language Models
Title（参考訳）: protfim:タンパク質言語モデルによる中間タンパク質配列設計
Authors: Youhan Lee, Hasun Yu
Abstract要約: 現実世界のタンパク質工学では、タンパク質配列の中央にあるアミノ酸が他の残基を維持しながら最適化されることが多い。タンパク質言語モデル(pLM)はタンパク質配列設計のための有望なツールである。 ProtFIMとよばれる中間変換によって訓練された言語モデルは、タンパク質工学により適していることを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Protein language models (pLMs), pre-trained via causal language modeling on protein sequences, have been a promising tool for protein sequence design. In real-world protein engineering, there are many cases where the amino acids in the middle of a protein sequence are optimized while maintaining other residues. Unfortunately, because of the left-to-right nature of pLMs, existing pLMs modify suffix residues by prompting prefix residues, which are insufficient for the infilling task that considers the whole surrounding context. To find the more effective pLMs for protein engineering, we design a new benchmark, Secondary structureE InFilling rEcoveRy, SEIFER, which approximates infilling sequence design scenarios. With the evaluation of existing models on the benchmark, we reveal the weakness of existing language models and show that language models trained via fill-in-middle transformation, called ProtFIM, are more appropriate for protein engineering. Also, we prove that ProtFIM generates protein sequences with decent protein representations through exhaustive experiments and visualizations.
Abstract（参考訳）: タンパク質配列の因果言語モデリングによって事前学習されたタンパク質言語モデル(plm)は、タンパク質配列設計の有望なツールである。現実世界のタンパク質工学では、タンパク質配列の中央にあるアミノ酸が他の残基を維持しながら最適化される場合が多い。残念なことに、pLMの左から右への性質のため、既存のpLMは接頭辞の残基を誘導することで接尾辞残基を修飾する。タンパク質工学においてより効果的なpLMを見つけるため,我々は新しいベンチマークであるSecond StructureE InFilling rEcoveRy, SEIFERを設計した。既存のモデルをベンチマークで評価することで、既存の言語モデルの弱点を明らかにし、protfimと呼ばれる中間変換で訓練された言語モデルは、タンパク質工学にもっと適していることを示す。また,protfimはタンパク質配列を正常に表現し,徹底的な実験と可視化によって生成することを示した。

関連論文リスト

Protein Large Language Models: A Comprehensive Survey [71.65899614084853]
タンパク質特異的な大規模言語モデル(Protein LLMs)は、より効率的なタンパク質構造予測、機能アノテーション、設計を可能にすることで、タンパク質科学に革命をもたらしている。この作業は、アーキテクチャ、データセットのトレーニング、評価メトリクス、さまざまなアプリケーションをカバーする、Protein LLMの最初の包括的な概要を提供する。
論文参考訳（メタデータ） (2025-02-21T19:22:10Z)
Computational Protein Science in the Era of Large Language Models (LLMs) [54.35488233989787]
計算タンパク質科学(Computational protein science)は、タンパク質配列構造-機能パラダイムにおける知識を明らかにすること、および応用を開発することを目的としている。最近、言語モデル (Language Models, PLM) は、前例のない言語処理と一般化能力のために、AIのマイルストーンとして登場した。
論文参考訳（メタデータ） (2025-01-17T16:21:18Z)
Large Language Model is Secretly a Protein Sequence Optimizer [24.55348363931866]
本研究では,与えられた野生型配列から,高い適合度を持つタンパク質配列を見つけることを目的としたタンパク質配列工学的問題を考える。大規模言語モデル(LLM)は、大量のテキストで訓練されているにもかかわらず、秘密裏にタンパク質配列であることを示す。
論文参考訳（メタデータ） (2025-01-16T03:44:16Z)
Long-context Protein Language Model [76.95505296417866]
言語モデル(LM)の自己教師による訓練は、有意義な表現の学習や創薬設計において、タンパク質配列に大きな成功を収めている。ほとんどのタンパク質LMは、短い文脈長を持つ個々のタンパク質に基づいて訓練されたトランスフォーマーアーキテクチャに基づいている。そこで我々は,選択的構造化状態空間モデルから構築した代替のタンパク質LMアーキテクチャであるBiMamba-Sに基づくLC-PLMを提案する。また、第2段階のトレーニングのために、タンパク質-タンパク質相互作用グラフの文脈化を行うLC-PLM-Gも導入した。
論文参考訳（メタデータ） (2024-10-29T16:43:28Z)
A Fine-tuning Dataset and Benchmark for Large Language Models for Protein Understanding [10.652670673334486]
ProteinLMBenchは、LCMのタンパク質理解能力を評価するために、手動で検証された多重選択質問からなる最初のベンチマークデータセットである。 ProteinLMDatasetは、さらに自己教師付き事前トレーニングと教師付き微調整のために設計されたデータセットである。インターンLM2-7BはProteinLMDatasetで事前訓練され微調整され、ProteinLMBenchでGPT-4を上回り、高い精度のスコアを得た。
論文参考訳（メタデータ） (2024-06-08T18:11:30Z)
ProtT3: Protein-to-Text Generation for Text-based Protein Understanding [88.43323947543996]
言語モデル(LM)は、タンパク質のテキスト記述を理解するのに優れている。タンパク質言語モデル(PLM)は、タンパク質データを理解し、高品質な表現に変換するが、テキストを処理するのに苦労する。 ProtT3は、テキストベースのタンパク質理解のための、タンパク質からテキストへの生成のためのフレームワークである。
論文参考訳（メタデータ） (2024-05-21T08:06:13Z)
ProLLM: Protein Chain-of-Thoughts Enhanced LLM for Protein-Protein Interaction Prediction [54.132290875513405]
タンパク質-タンパク質相互作用(PPI)の予測は、生物学的機能や疾患を理解する上で重要である。 PPI予測に対する従来の機械学習アプローチは、主に直接的な物理的相互作用に焦点を当てていた。 PPIに適したLLMを用いた新しいフレームワークProLLMを提案する。
論文参考訳（メタデータ） (2024-03-30T05:32:42Z)
ProtLLM: An Interleaved Protein-Language LLM with Protein-as-Word Pre-Training [82.37346937497136]
本稿では,タンパク質中心タスクとタンパク質言語タスクの両方を対象とした多機能多言語多言語言語モデル (LLM) を提案する。 ProtLLMはユニークな動的タンパク質実装機構を備えており、複雑な入力を処理できる。専門的なタンパク質語彙を開発することで、自然言語だけでなく、膨大な候補からタンパク質を予測できる能力をモデルに装備する。
論文参考訳（メタデータ） (2024-02-28T01:29:55Z)
Endowing Protein Language Models with Structural Knowledge [5.587293092389789]
本稿では,タンパク質構造データを統合することにより,タンパク質言語モデルを強化する新しいフレームワークを提案する。 PST(Protein Structure Transformer)と呼ばれる精製モデルは、小さなタンパク質構造データベース上でさらに事前訓練されている。 PSTは、タンパク質配列の最先端基盤モデルであるESM-2を一貫して上回り、タンパク質機能予測の新しいベンチマークを設定している。
論文参考訳（メタデータ） (2024-01-26T12:47:54Z)
Retrieved Sequence Augmentation for Protein Representation Learning [40.13920287967866]
本稿では,タンパク質表現学習のための検索シーケンス拡張について,アライメントや前処理を伴わずに導入する。本モデルでは,新しいタンパク質ドメインに移行し,デノボタンパク質の予測においてMSAトランスフォーマーより優れていることを示す。我々の研究はタンパク質の予測における大きなギャップを埋め、タンパク質配列を理解するのに必要なドメイン知識の解読に一歩近づいた。
論文参考訳（メタデータ） (2023-02-24T10:31:45Z)
Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。 pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文参考訳（メタデータ） (2023-02-03T10:49:52Z)
Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文参考訳（メタデータ） (2022-04-06T02:18:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。