論文の概要: Fixed-Length Protein Embeddings using Contextual Lenses
- arxiv url: http://arxiv.org/abs/2010.15065v1
- Date: Thu, 15 Oct 2020 14:54:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 03:35:19.542881
- Title: Fixed-Length Protein Embeddings using Contextual Lenses
- Title(参考訳): コンテクストレンズを用いた固定長タンパク質埋め込み
- Authors: Amir Shanehsazzadeh, David Belanger, David Dohan
- Abstract要約: ベクトル類似性アプローチは、現代のハードウェアやハッシュ技術を使って、実質的に加速することができる。
近年,深層学習モデルを用いた固定長タンパク質の埋め込み学習への関心が高まっている。
我々は,TrEMBLデータセット上で事前学習された変換子(BERT)タンパク質言語モデルについて検討し,その上にコンテキストレンズで固定長埋め込みを学習する。
- 参考スコア(独自算出の注目度): 14.098875826640883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Basic Local Alignment Search Tool (BLAST) is currently the most popular
method for searching databases of biological sequences. BLAST compares
sequences via similarity defined by a weighted edit distance, which results in
it being computationally expensive. As opposed to working with edit distance, a
vector similarity approach can be accelerated substantially using modern
hardware or hashing techniques. Such an approach would require fixed-length
embeddings for biological sequences. There has been recent interest in learning
fixed-length protein embeddings using deep learning models under the hypothesis
that the hidden layers of supervised or semi-supervised models could produce
potentially useful vector embeddings. We consider transformer (BERT) protein
language models that are pretrained on the TrEMBL data set and learn
fixed-length embeddings on top of them with contextual lenses. The embeddings
are trained to predict the family a protein belongs to for sequences in the
Pfam database. We show that for nearest-neighbor family classification,
pretraining offers a noticeable boost in performance and that the corresponding
learned embeddings are competitive with BLAST. Furthermore, we show that the
raw transformer embeddings, obtained via static pooling, do not perform well on
nearest-neighbor family classification, which suggests that learning embeddings
in a supervised manner via contextual lenses may be a compute-efficient
alternative to fine-tuning.
- Abstract(参考訳): Basic Local Alignment Search Tool (BLAST) は現在、生物配列のデータベースを検索する最も一般的な方法である。
BLASTは、重み付けされた編集距離によって定義される類似性によってシーケンスを比較する。
編集距離を扱うのとは対照的に、ベクトル類似性アプローチは現代のハードウェアやハッシュ技術を使って大幅に加速することができる。
このようなアプローチでは、生物配列に対する固定長埋め込みが必要となる。
近年、教師付きまたは半教師付きモデルの隠れた層が潜在的に有用なベクトル埋め込みを生み出すという仮説の下で、ディープラーニングモデルを用いて固定長タンパク質の埋め込みを学習することへの関心が高まっている。
我々は,TrEMBLデータセット上で事前学習された変換子(BERT)タンパク質言語モデルについて検討し,その上にコンテキストレンズで固定長埋め込みを学習する。
埋め込みは、タンパク質がPfamデータベースの配列に属する家族を予測するために訓練される。
最寄りの家族分類では,事前学習がパフォーマンスを著しく向上させ,学習した埋め込みがBLASTと競合することを示した。
さらに,静的なプーリングによって得られる生のトランスフォーマー埋め込みは,最寄りの家族分類ではうまく動作せず,文脈レンズによる教師付き埋め込みは,微調整に代わる計算効率の高い代替手段である可能性が示唆された。
関連論文リスト
- A Hard-to-Beat Baseline for Training-free CLIP-based Adaptation [121.0693322732454]
対照的に、CLIP(Contrastive Language- Image Pretraining)はその目覚ましいゼロショット能力で人気を集めている。
近年の研究では、下流タスクにおけるCLIPの性能を高めるための効率的な微調整手法の開発に焦点が当てられている。
従来のアルゴリズムであるガウス判別分析(GDA)を再検討し,CLIPの下流分類に適用する。
論文 参考訳(メタデータ) (2024-02-06T15:45:27Z) - End-to-End Training of a Neural HMM with Label and Transition
Probabilities [36.32865468394113]
隠れマルコフモデル(HMM)を用いたエンドツーエンドニューラルネットワークトレーニングのための新しいモデリング手法について検討する。
提案手法では,時間統計を暗黙的にエンコードするブランクラベルとは対照的に,セグメント間の遷移に関する明示的で学習可能な確率が存在する。
トランジションモデルトレーニングでは認識性能は向上しないが,アライメント品質に肯定的な影響を与えることがわかった。
論文 参考訳(メタデータ) (2023-10-04T10:56:00Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - What learning algorithm is in-context learning? Investigations with
linear models [87.91612418166464]
本稿では,トランスフォーマーに基づくインコンテキスト学習者が標準学習アルゴリズムを暗黙的に実装する仮説について検討する。
訓練された文脈内学習者は、勾配降下、隆起回帰、および正確な最小二乗回帰によって計算された予測値と密に一致していることを示す。
文脈内学習者がこれらの予測器とアルゴリズム的特徴を共有するという予備的証拠。
論文 参考訳(メタデータ) (2022-11-28T18:59:51Z) - Evaluating COVID-19 Sequence Data Using Nearest-Neighbors Based Network
Model [0.0]
SARS-CoV-2(SARS-CoV-2)は、ヒトの新型コロナウイルス感染症の原因である。
異なる宿主に適応し、異なる系統に進化することができる。
主要なSARS-CoV-2系統はスパイクタンパク質で主に起こる突然変異によって特徴づけられることが知られている。
論文 参考訳(メタデータ) (2022-11-19T00:34:02Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z) - Active Learning for Sequence Tagging with Deep Pre-trained Models and
Bayesian Uncertainty Estimates [52.164757178369804]
自然言語処理のためのトランスファーラーニングとアクティブラーニングの最近の進歩は、必要なアノテーション予算を大幅に削減する可能性を開く。
我々は,様々なベイズ不確実性推定手法とモンテカルロドロップアウトオプションの実験的研究を,アクティブ学習フレームワークで実施する。
また, 能動学習中にインスタンスを取得するためには, 完全サイズのトランスフォーマーを蒸留版に置き換えることにより, 計算性能が向上することを示した。
論文 参考訳(メタデータ) (2021-01-20T13:59:25Z) - Pre-training Protein Language Models with Label-Agnostic Binding Pairs
Enhances Performance in Downstream Tasks [1.452875650827562]
タンパク質配列の1%未満は構造的にも機能的にも注釈付けされている。
本稿では,結合タンパク質配列と非結合タンパク質配列を混合したRoBERTaモデルを提案する。
トランスフォーマーの注意機構は,タンパク質結合部位の発見に寄与することが示唆された。
論文 参考訳(メタデータ) (2020-12-05T17:37:41Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。