論文の概要: Masked Language Modeling for Proteins via Linearly Scalable Long-Context
Transformers
- arxiv url: http://arxiv.org/abs/2006.03555v3
- Date: Thu, 1 Oct 2020 00:41:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 02:23:12.384022
- Title: Masked Language Modeling for Proteins via Linearly Scalable Long-Context
Transformers
- Title(参考訳): 線形スケーラブルな長コンテキストトランスフォーマーによるタンパク質のマスキング言語モデリング
- Authors: Krzysztof Choromanski, Valerii Likhosherstov, David Dohan, Xingyou
Song, Andreea Gane, Tamas Sarlos, Peter Hawkins, Jared Davis, David Belanger,
Lucy Colwell, Adrian Weller
- Abstract要約: 我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいトランスフォーマーアーキテクチャPerformerを提案する。
我々の機構は、列内のトークンの数で2次ではなく2次的にスケールし、四次空間の複雑さが特徴であり、スパーシティパターンの先行を含まない。
これは強い理論的保証を与える:注意行列の偏りのない推定と一様収束である。
- 参考スコア(独自算出の注目度): 42.93754828584075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer models have achieved state-of-the-art results across a diverse
range of domains. However, concern over the cost of training the attention
mechanism to learn complex dependencies between distant inputs continues to
grow. In response, solutions that exploit the structure and sparsity of the
learned attention matrix have blossomed. However, real-world applications that
involve long sequences, such as biological sequence analysis, may fall short of
meeting these assumptions, precluding exploration of these models. To address
this challenge, we present a new Transformer architecture, Performer, based on
Fast Attention Via Orthogonal Random features (FAVOR). Our mechanism scales
linearly rather than quadratically in the number of tokens in the sequence, is
characterized by sub-quadratic space complexity and does not incorporate any
sparsity pattern priors. Furthermore, it provides strong theoretical
guarantees: unbiased estimation of the attention matrix and uniform
convergence. It is also backwards-compatible with pre-trained regular
Transformers. We demonstrate its effectiveness on the challenging task of
protein sequence modeling and provide detailed theoretical analysis.
- Abstract(参考訳): トランスフォーマーモデルは、様々な領域にわたる最先端の結果を得た。
しかしながら、遠隔入力間の複雑な依存関係を学ぶための注意メカニズムのトレーニングコストに対する懸念は増え続けている。
その結果,学習した注目行列の構造と空間性を利用した解が開花した。
しかし、生物学的シーケンス分析のような長いシーケンスを含む実世界のアプリケーションは、これらの仮定を満たさない可能性があり、これらのモデルの探索を妨げている。
この課題に対処するため、我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいTransformerアーキテクチャPerformerを提案する。
この機構は,列内のトークン数を二乗的にではなく線形にスケールし,二次空間の複雑さを特徴とし,スパーシティパターンの事前化を一切含まない。
さらに、注意行列の偏りのない推定と一様収束という強力な理論的保証を提供する。
また、事前訓練された正規トランスフォーマーと後方互換性がある。
タンパク質配列モデリングの課題に対して,その効果を実証し,詳細な理論的解析を行う。
関連論文リスト
- Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Learning Linear Attention in Polynomial Time [115.68795790532289]
線形注意を持つ単層変圧器の学習性に関する最初の結果を提供する。
線形アテンションは RKHS で適切に定義された線形予測器とみなすことができる。
我々は,すべての経験的リスクが線形変換器と同等のトレーニングデータセットを効率的に識別する方法を示す。
論文 参考訳(メタデータ) (2024-10-14T02:41:01Z) - Dynamical Mean-Field Theory of Self-Attention Neural Networks [0.0]
トランスフォーマーベースのモデルは、様々な領域で例外的な性能を示している。
動作方法や期待されるダイナミクスについてはほとんど分かっていない。
非平衡状態における非対称ホップフィールドネットワークの研究に手法を用いる。
論文 参考訳(メタデータ) (2024-06-11T13:29:34Z) - Correlated Attention in Transformers for Multivariate Time Series [22.542109523780333]
本稿では,特徴量依存を効率的に捕捉し,既存のトランスフォーマーのエンコーダブロックにシームレスに統合できる新しいアテンション機構を提案する。
特に、関連性のある注意は、特徴チャネルを横断して、クエリとキー間の相互共分散行列をラグ値で計算し、サブシリーズレベルで選択的に表現を集約する。
このアーキテクチャは、瞬時だけでなく、ラタグされた相互相関の発見と表現の学習を容易にすると同時に、本質的に時系列の自動相関をキャプチャする。
論文 参考訳(メタデータ) (2023-11-20T17:35:44Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z) - Inductive Biases and Variable Creation in Self-Attention Mechanisms [25.79946667926312]
この研究は自己アテンション加群の帰納バイアスの理論解析を提供する。
私たちの焦点は、どの関数と長距離依存関係を表現したいかを明確に決めることです。
我々の主な結果は、有界ノルムトランスフォーマー層がスパース変数を生成することを示している。
論文 参考訳(メタデータ) (2021-10-19T16:36:19Z) - Robustness Verification for Transformers [165.25112192811764]
我々はトランスフォーマーのための最初のロバスト性検証アルゴリズムを開発した。
提案手法で計算したロバスト性境界は, 素粒子間境界伝播法で計算したロバスト性境界よりもかなり厳密である。
これらの境界はまた、感情分析における異なる単語の重要性を常に反映しているトランスフォーマーの解釈にも光を当てている。
論文 参考訳(メタデータ) (2020-02-16T17:16:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。