論文の概要: Advancing protein language models with linguistics: a roadmap for
improved interpretability
- arxiv url: http://arxiv.org/abs/2207.00982v1
- Date: Sun, 3 Jul 2022 08:42:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 16:54:19.409344
- Title: Advancing protein language models with linguistics: a roadmap for
improved interpretability
- Title(参考訳): 言語学によるタンパク質言語モデルの発展 : 解釈性向上のためのロードマップ
- Authors: Mai Ha Vu, Rahmad Akbar, Philippe A. Robert, Bartlomiej Swiatczak,
Victor Greiff, Geir Kjetil Sandve, Dag Trygve Truslew Haug
- Abstract要約: 我々は、自然言語データから分析規則を抽出する分野である言語学から引き出されたガイダンスが、より解釈可能なタンパク質LMの構築に役立つと論じる。
学習データ,トークン化,トークン埋め込み,シーケンス埋め込み,モデル解釈に関する,タンパク質 LM パイプライン選択のための言語学的ロードマップを提供する。
- 参考スコア(独自算出の注目度): 0.5412332666265471
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep neural-network-based language models (LMs) are increasingly applied to
large-scale protein sequence data to predict protein function. However, being
largely blackbox models and thus challenging to interpret, current protein LM
approaches do not contribute to a fundamental understanding of
sequence-function mappings, hindering rule-based biotherapeutic drug
development. We argue that guidance drawn from linguistics, a field specialized
in analytical rule extraction from natural language data, can aid with building
more interpretable protein LMs that have learned relevant domain-specific
rules. Differences between protein sequence data and linguistic sequence data
require the integration of more domain-specific knowledge in protein LMs
compared to natural language LMs. Here, we provide a linguistics-based roadmap
for protein LM pipeline choices with regard to training data, tokenization,
token embedding, sequence embedding, and model interpretation. Combining
linguistics with protein LMs enables the development of next-generation
interpretable machine learning models with the potential of uncovering the
biological mechanisms underlying sequence-function relationships.
- Abstract(参考訳): 深層ニューラルネットワークに基づく言語モデル(lms)は、タンパク質の機能を予測するために、大規模タンパク質配列データにますます適用されている。
しかしながら、主にブラックボックスモデルであり、解釈が難しいため、現在のタンパク質 LM アプローチは、配列関数マッピングの基本的な理解に寄与せず、規則に基づく生物療法薬の開発を妨げる。
我々は、自然言語データから分析規則を抽出する分野である言語学から引き出されたガイダンスが、関連するドメイン固有のルールを学習したより解釈可能なタンパク質LMの構築に役立つと論じる。
タンパク質配列データと言語配列データの違いは、自然言語lmsと比較して、タンパク質lmsにドメイン固有の知識を統合する必要がある。
ここでは,トレーニングデータ,トークン化,トークン埋め込み,シーケンス埋め込み,モデル解釈に関して,プロテインlmパイプライン選択のための言語学的ロードマップを提供する。
言語学とタンパク質 LM を組み合わせることで、シークエンス-ファンクション関係に基づく生物学的メカニズムを明らかにする可能性を持つ次世代の解釈可能な機械学習モデルの開発が可能になる。
関連論文リスト
- Long-context Protein Language Model [76.95505296417866]
言語モデル(LM)の自己教師による訓練は、有意義な表現の学習や創薬設計において、タンパク質配列に大きな成功を収めている。
ほとんどのタンパク質LMは、短い文脈長を持つ個々のタンパク質に基づいて訓練されたトランスフォーマーアーキテクチャに基づいている。
そこで我々は,選択的構造化状態空間モデルから構築した代替のタンパク質LMアーキテクチャであるBiMamba-Sに基づくLC-PLMを提案する。
また、第2段階のトレーニングのために、タンパク質-タンパク質相互作用グラフの文脈化を行うLC-PLM-Gも導入した。
論文 参考訳(メタデータ) (2024-10-29T16:43:28Z) - ProLLM: Protein Chain-of-Thoughts Enhanced LLM for Protein-Protein Interaction Prediction [54.132290875513405]
タンパク質-タンパク質相互作用(PPI)の予測は、生物学的機能や疾患を理解する上で重要である。
PPI予測に対する従来の機械学習アプローチは、主に直接的な物理的相互作用に焦点を当てていた。
PPIに適したLLMを用いた新しいフレームワークProLLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T05:32:42Z) - ProtLLM: An Interleaved Protein-Language LLM with Protein-as-Word Pre-Training [82.37346937497136]
本稿では,タンパク質中心タスクとタンパク質言語タスクの両方を対象とした多機能多言語多言語言語モデル (LLM) を提案する。
ProtLLMはユニークな動的タンパク質実装機構を備えており、複雑な入力を処理できる。
専門的なタンパク質語彙を開発することで、自然言語だけでなく、膨大な候補からタンパク質を予測できる能力をモデルに装備する。
論文 参考訳(メタデータ) (2024-02-28T01:29:55Z) - Endowing Protein Language Models with Structural Knowledge [5.587293092389789]
本稿では,タンパク質構造データを統合することにより,タンパク質言語モデルを強化する新しいフレームワークを提案する。
PST(Protein Structure Transformer)と呼ばれる精製モデルは、小さなタンパク質構造データベース上でさらに事前訓練されている。
PSTは、タンパク質配列の最先端基盤モデルであるESM-2を一貫して上回り、タンパク質機能予測の新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2024-01-26T12:47:54Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - InstructProtein: Aligning Human and Protein Language via Knowledge
Instruction [38.46621806898224]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらしたが、タンパク質のような生物学的配列の理解に乏しい。
InstructProteinは、ヒト言語とタンパク質言語の両方で双方向に生成する機能を持つ。
InstructProteinは、テキストベースのタンパク質機能予測とシーケンス設計に向けた先駆的なステップとして機能する。
論文 参考訳(メタデータ) (2023-10-05T02:45:39Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。