論文の概要: Linguistically inspired roadmap for building biologically reliable
protein language models
- arxiv url: http://arxiv.org/abs/2207.00982v2
- Date: Fri, 28 Apr 2023 15:33:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-01 17:48:08.045820
- Title: Linguistically inspired roadmap for building biologically reliable
protein language models
- Title(参考訳): 言語にインスパイアされたタンパク質言語モデル構築のロードマップ
- Authors: Mai Ha Vu, Rahmad Akbar, Philippe A. Robert, Bartlomiej Swiatczak,
Victor Greiff, Geir Kjetil Sandve, Dag Trygve Truslew Haug
- Abstract要約: 言語学から引き出されたガイダンスは、より解釈可能なタンパク質のLMを構築するのに役立つと論じる。
学習データ,トークン化,トークン埋め込み,シーケンス埋め込み,モデル解釈に関する,タンパク質 LM パイプライン選択のための言語学的ロードマップを提供する。
- 参考スコア(独自算出の注目度): 0.5412332666265471
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep neural-network-based language models (LMs) are increasingly applied to
large-scale protein sequence data to predict protein function. However, being
largely black-box models and thus challenging to interpret, current protein LM
approaches do not contribute to a fundamental understanding of
sequence-function mappings, hindering rule-based biotherapeutic drug
development. We argue that guidance drawn from linguistics, a field specialized
in analytical rule extraction from natural language data, can aid with building
more interpretable protein LMs that are more likely to learn relevant
domain-specific rules. Differences between protein sequence data and linguistic
sequence data require the integration of more domain-specific knowledge in
protein LMs compared to natural language LMs. Here, we provide a
linguistics-based roadmap for protein LM pipeline choices with regard to
training data, tokenization, token embedding, sequence embedding, and model
interpretation. Incorporating linguistic ideas into protein LMs enables the
development of next-generation interpretable machine-learning models with the
potential of uncovering the biological mechanisms underlying sequence-function
relationships.
- Abstract(参考訳): 深層ニューラルネットワークに基づく言語モデル(lms)は、タンパク質の機能を予測するために、大規模タンパク質配列データにますます適用されている。
しかしながら、主にブラックボックスモデルであり、解釈が難しいため、現在のタンパク質 LM アプローチは、配列関数マッピングの基本的な理解に寄与せず、規則に基づく生物療法薬の開発を妨げる。
我々は、自然言語データから分析規則を抽出する分野である言語学から引き出されたガイダンスが、関連するドメイン固有のルールを学習しやすい、より解釈可能なタンパク質LMの構築に役立てることができると論じる。
タンパク質配列データと言語配列データの違いは、自然言語lmsと比較して、タンパク質lmsにドメイン固有の知識を統合する必要がある。
ここでは,トレーニングデータ,トークン化,トークン埋め込み,シーケンス埋め込み,モデル解釈に関して,プロテインlmパイプライン選択のための言語学的ロードマップを提供する。
言語概念をタンパク質 LM に組み込むことで、シークエンス-ファンクション関係に基づく生物学的メカニズムを明らかにする可能性を持つ次世代の解釈可能な機械学習モデルの開発が可能になる。
関連論文リスト
- Endowing Protein Language Models with Structural Knowledge [5.587293092389789]
本稿では,タンパク質構造データを統合することにより,タンパク質言語モデルを強化する新しいフレームワークを提案する。
PST(Protein Structure Transformer)と呼ばれる精製モデルは、小さなタンパク質構造データベース上でさらに事前訓練されている。
PSTは、タンパク質配列の最先端基盤モデルであるESM-2を一貫して上回り、タンパク質機能予測の新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2024-01-26T12:47:54Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - MMDesign: Multi-Modality Transfer Learning for Generative Protein Design [66.49989188722553]
タンパク質の設計は、対応するタンパク質のバックボーンに基づいてタンパク質配列を生成する。
深層生成モデルは、データから直接タンパク質設計を学ぶことを約束している。
パブリックな構造系列ペアリングの欠如は、一般化能力を制限している。
マルチモーダルトランスファー学習を利用するMMDesignと呼ばれる新しいタンパク質設計パラダイムを提案する。
論文 参考訳(メタデータ) (2023-12-11T10:59:23Z) - InstructProtein: Aligning Human and Protein Language via Knowledge
Instruction [38.46621806898224]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらしたが、タンパク質のような生物学的配列の理解に乏しい。
InstructProteinは、ヒト言語とタンパク質言語の両方で双方向に生成する機能を持つ。
InstructProteinは、テキストベースのタンパク質機能予測とシーケンス設計に向けた先駆的なステップとして機能する。
論文 参考訳(メタデータ) (2023-10-05T02:45:39Z) - UMLS-KGI-BERT: Data-Centric Knowledge Integration in Transformers for
Biomedical Entity Recognition [4.865221751784403]
この研究は、UMLSからテキストシーケンスを抽出することにより、バイオメディカルトランスフォーマーエンコーダLMの言語表現を強化するためのデータ中心パラダイムに寄与する。
予め訓練したLMの拡張およびスクラッチからのトレーニングによる実験の結果から,複数の生物医学的,臨床的な名前付きエンティティ認識(NER)タスクにおける下流性能の向上が示された。
論文 参考訳(メタデータ) (2023-07-20T18:08:34Z) - ProtST: Multi-Modality Learning of Protein Sequences and Biomedical
Texts [22.870765825298268]
タンパク質配列を拡大するProtSTデータセットを構築し,その機能や重要な特性をテキストで記述する。
事前学習中に、単調マスク予測、マルチモーダル表現アライメント、マルチモーダルマスク予測という3種類のタスクを設計する。
下流タスクでは、ProtSTは教師付き学習とゼロショット予測の両方を可能にする。
論文 参考訳(メタデータ) (2023-01-28T00:58:48Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z) - Rethinking Relational Encoding in Language Model: Pre-Training for
General Sequences [23.806325599416134]
言語モデル事前トレーニングは、非自然言語ドメインにおけるシーケンス毎の関係のモデリングに失敗する。
LMPTと深い構造保存メトリック学習を組み合わせ、よりリッチな埋め込みを生成するフレームワークを開発しています。
我々のアプローチは下流タスクで顕著なパフォーマンス改善を提供します。
論文 参考訳(メタデータ) (2021-03-18T15:51:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。