Fugu-MT 論文翻訳(概要): You Only Sample (Almost) Once: Linear Cost Self-Attention Via Bernoulli Sampling

論文の概要: You Only Sample (Almost) Once: Linear Cost Self-Attention Via Bernoulli Sampling

arxiv url: http://arxiv.org/abs/2111.09714v1
Date: Thu, 18 Nov 2021 14:24:34 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-19 13:19:01.920598
Title: You Only Sample (Almost) Once: Linear Cost Self-Attention Via Bernoulli Sampling
Title（参考訳）: 一度だけ(ほぼ)サンプル:リニアコスト自撮り(Bernoulli Smpling)
Authors: Zhanpeng Zeng, Yunyang Xiong, Sathya N. Ravi, Shailesh Acharya, Glenn Fung, Vikas Singh
Abstract要約: 本研究では,LSH(Locality Sensitive Hashing)に基づくBernoulliサンプリングアテンション機構が,そのようなモデルの二次的複雑性を線形に減少させることを示す。提案アルゴリズムは,標準512列長のGLUEベンチマークで評価し,標準事前学習型変換器と比較して良好な性能を示した。
参考スコア（独自算出の注目度）: 38.34914626128062
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformer-based models are widely used in natural language processing (NLP). Central to the transformer model is the self-attention mechanism, which captures the interactions of token pairs in the input sequences and depends quadratically on the sequence length. Training such models on longer sequences is expensive. In this paper, we show that a Bernoulli sampling attention mechanism based on Locality Sensitive Hashing (LSH), decreases the quadratic complexity of such models to linear. We bypass the quadratic cost by considering self-attention as a sum of individual tokens associated with Bernoulli random variables that can, in principle, be sampled at once by a single hash (although in practice, this number may be a small constant). This leads to an efficient sampling scheme to estimate self-attention which relies on specific modifications of LSH (to enable deployment on GPU architectures). We evaluate our algorithm on the GLUE benchmark with standard 512 sequence length where we see favorable performance relative to a standard pretrained Transformer. On the Long Range Arena (LRA) benchmark, for evaluating performance on long sequences, our method achieves results consistent with softmax self-attention but with sizable speed-ups and memory savings and often outperforms other efficient self-attention methods. Our code is available at https://github.com/mlpen/YOSO
Abstract（参考訳）: トランスフォーマーベースのモデルは自然言語処理(NLP)で広く使われている。トランスモデルの中心は自己保持機構であり、入力シーケンスにおけるトークンペアの相互作用を捉え、シーケンスの長さに2次に依存する。長いシーケンスでそのようなモデルをトレーニングするのはコストがかかる。本稿では,LSH(Locality Sensitive Hashing)に基づくBernoulliサンプリングアテンション機構が,そのようなモデルの二次的複雑性を線形に減少させることを示す。我々は、ベルヌーイ確率変数に関連する個々のトークンの和として自己注意を考えることで二次コストを回避し、原則として1つのハッシュで一度にサンプリングできる(実際にはこの数は小さい定数かもしれない)。これにより、LSHの特定の変更(GPUアーキテクチャへのデプロイを可能にする)に依存する自己注意を推定する効率的なサンプリングスキームが実現される。提案アルゴリズムは,標準512列長のGLUEベンチマークで評価し,標準事前学習トランスに比べて良好な性能を示した。ロングレンジ・アリーナ (lra) ベンチマークでは, 長いシーケンスでの性能を評価するために, ソフトマックスの自己着脱と一貫性のある結果が得られるが, ある程度のスピードアップとメモリ節約が可能であり, 他の効率的な自己着脱法よりも優れることが多い。私たちのコードはhttps://github.com/mlpen/YOSOで利用可能です。

関連論文リスト

A Hybrid Transformer Architecture with a Quantized Self-Attention Mechanism Applied to Molecular Generation [0.0]
本稿では,トランスデコーダの一部として,量子古典的自己アテンション機構を提案する。クェリキードット積の時間的複雑さは古典的モデルでは$mathcalO(n2 d)$から量子モデルでは$mathcalO(n2 d)$に減少する。この研究は、量子化自然言語処理(NLP)のための有望な道を提供する。
論文参考訳（メタデータ） (2025-02-26T15:15:01Z)
Inference-time sparse attention with asymmetric indexing [23.305984099821618]
トランスモデルの自己アテンションは、キーベクトルを値ベクトルにマッピングするインクリメンタルな連想メモリである。標準的なパーティショニング手法は、この文脈では不十分な結果をもたらす。これらの問題を克服するSAAP(Self-Attention with Asymmetric Partitions)を導入する。
論文参考訳（メタデータ） (2025-02-12T09:39:54Z)
Attention as an RNN [66.5420926480473]
我々は,そのテキストマンディ・ツー・ワンのRNN出力を効率的に計算できる特別なリカレントニューラルネットワーク(RNN)として注目されることを示す。本稿では,並列プレフィックススキャンアルゴリズムを用いて,注目のテキストマンディ・ツー・マニーRNN出力を効率よく計算する手法を提案する。 Aarensは、一般的な4つのシーケンシャルな問題設定に散らばる38ドルのデータセットで、Transformersに匹敵するパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-05-22T19:45:01Z)
Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文参考訳（メタデータ） (2024-04-18T09:17:06Z)
LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。 LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文参考訳（メタデータ） (2024-04-17T08:26:34Z)
SPEED: Speculative Pipelined Execution for Efficient Decoding [35.45955948053644]
本稿では,現在のトークンと並行して複数の将来トークンを投機的に実行することで,推論効率を向上させるSPEEDを提案する。パラメータ共有を使用するTransformerデコーダでは、並列に実行されるトークンのメモリ操作を償却することができる。モデル精度に対する遅延低減の観点から,本手法の有効性を実証し,パラメータ共有によるより深いデコーダのトレーニングを最小限のランタイムオーバーヘッドで行う方法を示した。
論文参考訳（メタデータ） (2023-10-18T16:07:01Z)
Toeplitz Neural Network for Sequence Modeling [46.04964190407727]
Toeplitz行列ベクトル生成のトリックにより、シーケンスモデリングの時間的複雑さを減らし、ログ線形化することを示す。パラメータの固定予算で相対位置係数を生成するために、相対位置エンコーダと呼ばれる軽量サブネットワークを提案する。 512 tokenのシーケンスでトレーニングされているにもかかわらず、我々のモデルは、一貫した性能で最大14Kトークンの入力シーケンス長を推定することができる。
論文参考訳（メタデータ） (2023-05-08T14:49:01Z)
Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。出力トークンの数を正確に予測し、隠れた変数を抽出する。 10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文参考訳（メタデータ） (2022-06-16T17:24:14Z)
Pyramid-BERT: Reducing Complexity via Successive Core-set based Token Selection [23.39962989492527]
BERTのようなトランスフォーマーベースの言語モデルは、様々なNLPタスクで最先端を達成しているが、計算的に禁止されている。本稿では,従来の使用法を,理論的な結果によって正当化されたemコアセットベースのトークン選択法で置き換えるピラミッド-BERTを提案する。コアセットベースのトークン選択技術により、高価な事前トレーニングを回避でき、空間効率の良い微調整が可能となり、長いシーケンス長を扱うのに適している。
論文参考訳（メタデータ） (2022-03-27T19:52:01Z)
Sketching as a Tool for Understanding and Accelerating Self-attention for Long Sequences [52.6022911513076]
トランスフォーマーベースのモデルは、自己アテンションモジュールの二次空間と時間的複雑さのために、長いシーケンスを処理するのに効率的ではない。我々はLinformerとInformerを提案し、低次元投影と行選択により2次複雑性を線形(モジュラー対数因子)に還元する。理論的解析に基づいて,Skeinformerを提案することにより,自己注意の促進と,自己注意への行列近似の精度の向上を図ることができる。
論文参考訳（メタデータ） (2021-12-10T06:58:05Z)
Nystr\"omformer: A Nystr\"om-Based Algorithm for Approximating Self-Attention [60.043273122786005]
我々は,シーケンス長の関数として優れたスケーラビリティを示すモデルであるNystr"omformerを提案する。 Nystr"omformerのスケーラビリティにより、アプリケーションは数千のトークンで長いシーケンスを実行できる。 GLUEベンチマークで複数のダウンストリームタスクの評価を行い、標準シーケンス長のレビューを行い、我々のNystrオムフォーマが標準トランスフォーマよりも相容れないか、あるいはいくつかのケースで若干改善されていることを確認した。
論文参考訳（メタデータ） (2021-02-07T20:06:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。