論文の概要: Fixed-Length Protein Embeddings using Contextual Lenses
- arxiv url: http://arxiv.org/abs/2010.15065v1
- Date: Thu, 15 Oct 2020 14:54:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 03:35:19.542881
- Title: Fixed-Length Protein Embeddings using Contextual Lenses
- Title(参考訳): コンテクストレンズを用いた固定長タンパク質埋め込み
- Authors: Amir Shanehsazzadeh, David Belanger, David Dohan
- Abstract要約: ベクトル類似性アプローチは、現代のハードウェアやハッシュ技術を使って、実質的に加速することができる。
近年,深層学習モデルを用いた固定長タンパク質の埋め込み学習への関心が高まっている。
我々は,TrEMBLデータセット上で事前学習された変換子(BERT)タンパク質言語モデルについて検討し,その上にコンテキストレンズで固定長埋め込みを学習する。
- 参考スコア(独自算出の注目度): 14.098875826640883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Basic Local Alignment Search Tool (BLAST) is currently the most popular
method for searching databases of biological sequences. BLAST compares
sequences via similarity defined by a weighted edit distance, which results in
it being computationally expensive. As opposed to working with edit distance, a
vector similarity approach can be accelerated substantially using modern
hardware or hashing techniques. Such an approach would require fixed-length
embeddings for biological sequences. There has been recent interest in learning
fixed-length protein embeddings using deep learning models under the hypothesis
that the hidden layers of supervised or semi-supervised models could produce
potentially useful vector embeddings. We consider transformer (BERT) protein
language models that are pretrained on the TrEMBL data set and learn
fixed-length embeddings on top of them with contextual lenses. The embeddings
are trained to predict the family a protein belongs to for sequences in the
Pfam database. We show that for nearest-neighbor family classification,
pretraining offers a noticeable boost in performance and that the corresponding
learned embeddings are competitive with BLAST. Furthermore, we show that the
raw transformer embeddings, obtained via static pooling, do not perform well on
nearest-neighbor family classification, which suggests that learning embeddings
in a supervised manner via contextual lenses may be a compute-efficient
alternative to fine-tuning.
- Abstract(参考訳): Basic Local Alignment Search Tool (BLAST) は現在、生物配列のデータベースを検索する最も一般的な方法である。
BLASTは、重み付けされた編集距離によって定義される類似性によってシーケンスを比較する。
編集距離を扱うのとは対照的に、ベクトル類似性アプローチは現代のハードウェアやハッシュ技術を使って大幅に加速することができる。
このようなアプローチでは、生物配列に対する固定長埋め込みが必要となる。
近年、教師付きまたは半教師付きモデルの隠れた層が潜在的に有用なベクトル埋め込みを生み出すという仮説の下で、ディープラーニングモデルを用いて固定長タンパク質の埋め込みを学習することへの関心が高まっている。
我々は,TrEMBLデータセット上で事前学習された変換子(BERT)タンパク質言語モデルについて検討し,その上にコンテキストレンズで固定長埋め込みを学習する。
埋め込みは、タンパク質がPfamデータベースの配列に属する家族を予測するために訓練される。
最寄りの家族分類では,事前学習がパフォーマンスを著しく向上させ,学習した埋め込みがBLASTと競合することを示した。
さらに,静的なプーリングによって得られる生のトランスフォーマー埋め込みは,最寄りの家族分類ではうまく動作せず,文脈レンズによる教師付き埋め込みは,微調整に代わる計算効率の高い代替手段である可能性が示唆された。
関連論文リスト
- LP++: A Surprisingly Strong Linear Probe for Few-Shot CLIP [20.86307407685542]
リニアプローブ(LP)は、数発のCLIP適応の弱いベースラインとしてしばしば報告されている。
本研究では,コンベックス最適化の観点から標準LPベースラインの一般化について検討する。
我々の画像言語目的関数は、これらの非自明な最適化の洞察や成分とともに、驚くほど、競争力の高いCLIPパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2024-04-02T20:23:10Z) - End-to-End Training of a Neural HMM with Label and Transition
Probabilities [36.32865468394113]
隠れマルコフモデル(HMM)を用いたエンドツーエンドニューラルネットワークトレーニングのための新しいモデリング手法について検討する。
提案手法では,時間統計を暗黙的にエンコードするブランクラベルとは対照的に,セグメント間の遷移に関する明示的で学習可能な確率が存在する。
トランジションモデルトレーニングでは認識性能は向上しないが,アライメント品質に肯定的な影響を与えることがわかった。
論文 参考訳(メタデータ) (2023-10-04T10:56:00Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - What learning algorithm is in-context learning? Investigations with
linear models [87.91612418166464]
本稿では,トランスフォーマーに基づくインコンテキスト学習者が標準学習アルゴリズムを暗黙的に実装する仮説について検討する。
訓練された文脈内学習者は、勾配降下、隆起回帰、および正確な最小二乗回帰によって計算された予測値と密に一致していることを示す。
文脈内学習者がこれらの予測器とアルゴリズム的特徴を共有するという予備的証拠。
論文 参考訳(メタデータ) (2022-11-28T18:59:51Z) - Transformers Can Do Bayesian Inference [56.99390658880008]
我々はPFN(Presideed Data Fitted Networks)を提案する。
PFNは、大規模機械学習技術におけるインコンテキスト学習を活用して、大規模な後部集合を近似する。
我々は、PFNがガウス過程をほぼ完璧に模倣し、難解問題に対する効率的なベイズ推定を可能にすることを示した。
論文 参考訳(メタデータ) (2021-12-20T13:07:39Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z) - Active Learning for Sequence Tagging with Deep Pre-trained Models and
Bayesian Uncertainty Estimates [52.164757178369804]
自然言語処理のためのトランスファーラーニングとアクティブラーニングの最近の進歩は、必要なアノテーション予算を大幅に削減する可能性を開く。
我々は,様々なベイズ不確実性推定手法とモンテカルロドロップアウトオプションの実験的研究を,アクティブ学習フレームワークで実施する。
また, 能動学習中にインスタンスを取得するためには, 完全サイズのトランスフォーマーを蒸留版に置き換えることにより, 計算性能が向上することを示した。
論文 参考訳(メタデータ) (2021-01-20T13:59:25Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。