論文の概要: Nystr\"omformer: A Nystr\"om-Based Algorithm for Approximating
Self-Attention
- arxiv url: http://arxiv.org/abs/2102.03902v1
- Date: Sun, 7 Feb 2021 20:06:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-09 16:09:08.383301
- Title: Nystr\"omformer: A Nystr\"om-Based Algorithm for Approximating
Self-Attention
- Title(参考訳): Nystr\"omformer: Nystr\"om-based Algorithm for Approximating Self-Attention
- Authors: Yunyang Xiong, Zhanpeng Zeng, Rudrasis Chakraborty, Mingxing Tan,
Glenn Fung, Yin Li, Vikas Singh
- Abstract要約: 我々は,シーケンス長の関数として優れたスケーラビリティを示すモデルであるNystr"omformerを提案する。
Nystr"omformerのスケーラビリティにより、アプリケーションは数千のトークンで長いシーケンスを実行できる。
GLUEベンチマークで複数のダウンストリームタスクの評価を行い、標準シーケンス長のレビューを行い、我々のNystrオムフォーマが標準トランスフォーマよりも相容れないか、あるいはいくつかのケースで若干改善されていることを確認した。
- 参考スコア(独自算出の注目度): 60.043273122786005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have emerged as a powerful tool for a broad range of natural
language processing tasks. A key component that drives the impressive
performance of Transformers is the self-attention mechanism that encodes the
influence or dependence of other tokens on each specific token. While
beneficial, the quadratic complexity of self-attention on the input sequence
length has limited its application to longer sequences -- a topic being
actively studied in the community. To address this limitation, we propose
Nystr\"omformer -- a model that exhibits favorable scalability as a function of
sequence length. Our idea is based on adapting the Nystr\"om method to
approximate standard self-attention with $O(n)$ complexity. The scalability of
Nystr\"omformer enables application to longer sequences with thousands of
tokens. We perform evaluations on multiple downstream tasks on the GLUE
benchmark and IMDB reviews with standard sequence length, and find that our
Nystr\"omformer performs comparably, or in a few cases, even slightly better,
than standard Transformer. Our code is at
https://github.com/mlpen/Nystromformer.
- Abstract(参考訳): トランスフォーマーは、幅広い自然言語処理タスクのための強力なツールとして登場した。
トランスフォーマーの印象的なパフォーマンスを駆動するキーコンポーネントは、特定のトークンに対する他のトークンの影響や依存をエンコードするセルフアテンションメカニズムである。
有益ではあるが、入力シーケンスの長さに対する自己注意の二次的な複雑さは、その応用を長いシーケンスに限定している。
この制限に対処するため、シーケンス長の関数として良好なスケーラビリティを示すモデルである Nystr\"omformer を提案する。
我々のアイデアは、nystr\"om 法を $o(n)$ の複雑さで標準自己着脱近似に適応させることに基づいている。
Nystr\"omformerのスケーラビリティにより、アプリケーションは何千ものトークンで長いシーケンスを実行できる。
我々はGLUEベンチマークとIMDBレビューで複数のダウンストリームタスクの評価を行い、我々のNystr\"omformerが標準のTransformerよりも相補的、あるいはいくつかのケースで若干良い結果が得られることを確認した。
私たちのコードはhttps://github.com/mlpen/Nystromformerにあります。
関連論文リスト
- Mamba: Linear-Time Sequence Modeling with Selective State Spaces [31.985243136674146]
ファンデーションモデルは、ほぼ普遍的にTransformerアーキテクチャとコアアテンションモジュールに基づいている。
このようなモデルの重大な弱点は、コンテンツベースの推論を実行できないことである。
我々はこれらの選択的なSSMを、注意やブロック(Mamba)を使わずに、単純化されたエンドツーエンドニューラルネットワークアーキテクチャに統合する(Mamba)。
一般的なシーケンスモデルバックボーンとして、Mambaは言語、オーディオ、ゲノミクスといったいくつかのモードで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-01T18:01:34Z) - Ring Attention with Blockwise Transformers for Near-Infinite Context [88.61687950039662]
本稿では,複数のデバイスにまたがって長いシーケンスを分散するために,ブロックワイドな自己注意とフィードフォワードの計算を利用する,ブロックワイドトランスフォーマーを用いたリングアテンション(リングアテンション)を提案する。
提案手法では,先行メモリ効率の変換器で達成可能なものよりも,デバイス数倍のシーケンスのトレーニングと推論が可能となる。
論文 参考訳(メタデータ) (2023-10-03T08:44:50Z) - LongNet: Scaling Transformers to 1,000,000,000 Tokens [146.4077038371075]
LongNetはTransformerの変種で、シーケンス長を10億以上のトークンに拡張できる。
我々の研究は、例えば、コーパス全体やインターネット全体をシーケンスとして扱うなど、非常に長いシーケンスをモデリングする新たな可能性を開く。
論文 参考訳(メタデータ) (2023-07-05T17:59:38Z) - Toeplitz Neural Network for Sequence Modeling [46.04964190407727]
Toeplitz行列ベクトル生成のトリックにより、シーケンスモデリングの時間的複雑さを減らし、ログ線形化することを示す。
パラメータの固定予算で相対位置係数を生成するために、相対位置エンコーダと呼ばれる軽量サブネットワークを提案する。
512 tokenのシーケンスでトレーニングされているにもかかわらず、我々のモデルは、一貫した性能で最大14Kトークンの入力シーケンス長を推定することができる。
論文 参考訳(メタデータ) (2023-05-08T14:49:01Z) - Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing
Important Tokens [65.4435926060951]
本稿では,超長周期の変換器の効率を,各層でより小さな表現に圧縮することで向上することを提案する。
我々のアルゴリズムは効率的であるだけでなく(4Kと16Kのベースラインに比べて3倍以上の効率向上を達成する)、多数のタスクで競合/ベターパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-05-07T10:32:18Z) - You Only Sample (Almost) Once: Linear Cost Self-Attention Via Bernoulli
Sampling [38.34914626128062]
本研究では,LSH(Locality Sensitive Hashing)に基づくBernoulliサンプリングアテンション機構が,そのようなモデルの二次的複雑性を線形に減少させることを示す。
提案アルゴリズムは,標準512列長のGLUEベンチマークで評価し,標準事前学習型変換器と比較して良好な性能を示した。
論文 参考訳(メタデータ) (2021-11-18T14:24:34Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。