論文の概要: You Only Sample (Almost) Once: Linear Cost Self-Attention Via Bernoulli
Sampling
- arxiv url: http://arxiv.org/abs/2111.09714v1
- Date: Thu, 18 Nov 2021 14:24:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 13:19:01.920598
- Title: You Only Sample (Almost) Once: Linear Cost Self-Attention Via Bernoulli
Sampling
- Title(参考訳): 一度だけ(ほぼ)サンプル:リニアコスト自撮り(Bernoulli Smpling)
- Authors: Zhanpeng Zeng, Yunyang Xiong, Sathya N. Ravi, Shailesh Acharya, Glenn
Fung, Vikas Singh
- Abstract要約: 本研究では,LSH(Locality Sensitive Hashing)に基づくBernoulliサンプリングアテンション機構が,そのようなモデルの二次的複雑性を線形に減少させることを示す。
提案アルゴリズムは,標準512列長のGLUEベンチマークで評価し,標準事前学習型変換器と比較して良好な性能を示した。
- 参考スコア(独自算出の注目度): 38.34914626128062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based models are widely used in natural language processing
(NLP). Central to the transformer model is the self-attention mechanism, which
captures the interactions of token pairs in the input sequences and depends
quadratically on the sequence length. Training such models on longer sequences
is expensive. In this paper, we show that a Bernoulli sampling attention
mechanism based on Locality Sensitive Hashing (LSH), decreases the quadratic
complexity of such models to linear. We bypass the quadratic cost by
considering self-attention as a sum of individual tokens associated with
Bernoulli random variables that can, in principle, be sampled at once by a
single hash (although in practice, this number may be a small constant). This
leads to an efficient sampling scheme to estimate self-attention which relies
on specific modifications of LSH (to enable deployment on GPU architectures).
We evaluate our algorithm on the GLUE benchmark with standard 512 sequence
length where we see favorable performance relative to a standard pretrained
Transformer. On the Long Range Arena (LRA) benchmark, for evaluating
performance on long sequences, our method achieves results consistent with
softmax self-attention but with sizable speed-ups and memory savings and often
outperforms other efficient self-attention methods. Our code is available at
https://github.com/mlpen/YOSO
- Abstract(参考訳): トランスフォーマーベースのモデルは自然言語処理(NLP)で広く使われている。
トランスモデルの中心は自己保持機構であり、入力シーケンスにおけるトークンペアの相互作用を捉え、シーケンスの長さに2次に依存する。
長いシーケンスでそのようなモデルをトレーニングするのはコストがかかる。
本稿では,LSH(Locality Sensitive Hashing)に基づくBernoulliサンプリングアテンション機構が,そのようなモデルの二次的複雑性を線形に減少させることを示す。
我々は、ベルヌーイ確率変数に関連する個々のトークンの和として自己注意を考えることで二次コストを回避し、原則として1つのハッシュで一度にサンプリングできる(実際にはこの数は小さい定数かもしれない)。
これにより、LSHの特定の変更(GPUアーキテクチャへのデプロイを可能にする)に依存する自己注意を推定する効率的なサンプリングスキームが実現される。
提案アルゴリズムは,標準512列長のGLUEベンチマークで評価し,標準事前学習トランスに比べて良好な性能を示した。
ロングレンジ・アリーナ (lra) ベンチマークでは, 長いシーケンスでの性能を評価するために, ソフトマックスの自己着脱と一貫性のある結果が得られるが, ある程度のスピードアップとメモリ節約が可能であり, 他の効率的な自己着脱法よりも優れることが多い。
私たちのコードはhttps://github.com/mlpen/YOSOで利用可能です。
関連論文リスト
- Attention as an RNN [66.5420926480473]
我々は,そのテキストマンディ・ツー・ワンのRNN出力を効率的に計算できる特別なリカレントニューラルネットワーク(RNN)として注目されることを示す。
本稿では,並列プレフィックススキャンアルゴリズムを用いて,注目のテキストマンディ・ツー・マニーRNN出力を効率よく計算する手法を提案する。
Aarensは、一般的な4つのシーケンシャルな問題設定に散らばる38ドルのデータセットで、Transformersに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-22T19:45:01Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - SPEED: Speculative Pipelined Execution for Efficient Decoding [35.45955948053644]
本稿では,現在のトークンと並行して複数の将来トークンを投機的に実行することで,推論効率を向上させるSPEEDを提案する。
パラメータ共有を使用するTransformerデコーダでは、並列に実行されるトークンのメモリ操作を償却することができる。
モデル精度に対する遅延低減の観点から,本手法の有効性を実証し,パラメータ共有によるより深いデコーダのトレーニングを最小限のランタイムオーバーヘッドで行う方法を示した。
論文 参考訳(メタデータ) (2023-10-18T16:07:01Z) - Toeplitz Neural Network for Sequence Modeling [46.04964190407727]
Toeplitz行列ベクトル生成のトリックにより、シーケンスモデリングの時間的複雑さを減らし、ログ線形化することを示す。
パラメータの固定予算で相対位置係数を生成するために、相対位置エンコーダと呼ばれる軽量サブネットワークを提案する。
512 tokenのシーケンスでトレーニングされているにもかかわらず、我々のモデルは、一貫した性能で最大14Kトークンの入力シーケンス長を推定することができる。
論文 参考訳(メタデータ) (2023-05-08T14:49:01Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - Pyramid-BERT: Reducing Complexity via Successive Core-set based Token
Selection [23.39962989492527]
BERTのようなトランスフォーマーベースの言語モデルは、様々なNLPタスクで最先端を達成しているが、計算的に禁止されている。
本稿では,従来の使用法を,理論的な結果によって正当化されたemコアセットベースのトークン選択法で置き換えるピラミッド-BERTを提案する。
コアセットベースのトークン選択技術により、高価な事前トレーニングを回避でき、空間効率の良い微調整が可能となり、長いシーケンス長を扱うのに適している。
論文 参考訳(メタデータ) (2022-03-27T19:52:01Z) - Sketching as a Tool for Understanding and Accelerating Self-attention
for Long Sequences [52.6022911513076]
トランスフォーマーベースのモデルは、自己アテンションモジュールの二次空間と時間的複雑さのために、長いシーケンスを処理するのに効率的ではない。
我々はLinformerとInformerを提案し、低次元投影と行選択により2次複雑性を線形(モジュラー対数因子)に還元する。
理論的解析に基づいて,Skeinformerを提案することにより,自己注意の促進と,自己注意への行列近似の精度の向上を図ることができる。
論文 参考訳(メタデータ) (2021-12-10T06:58:05Z) - Nystr\"omformer: A Nystr\"om-Based Algorithm for Approximating
Self-Attention [60.043273122786005]
我々は,シーケンス長の関数として優れたスケーラビリティを示すモデルであるNystr"omformerを提案する。
Nystr"omformerのスケーラビリティにより、アプリケーションは数千のトークンで長いシーケンスを実行できる。
GLUEベンチマークで複数のダウンストリームタスクの評価を行い、標準シーケンス長のレビューを行い、我々のNystrオムフォーマが標準トランスフォーマよりも相容れないか、あるいはいくつかのケースで若干改善されていることを確認した。
論文 参考訳(メタデータ) (2021-02-07T20:06:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。