Fugu-MT 論文翻訳(概要): TaylorShift: Shifting the Complexity of Self-Attention from Squared to Linear (and Back) using Taylor-Softmax

論文の概要: TaylorShift: Shifting the Complexity of Self-Attention from Squared to Linear (and Back) using Taylor-Softmax

arxiv url: http://arxiv.org/abs/2403.02920v1
Date: Tue, 5 Mar 2024 12:38:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 14:59:48.936878
Title: TaylorShift: Shifting the Complexity of Self-Attention from Squared to Linear (and Back) using Taylor-Softmax
Title（参考訳）: TaylorShift: Taylor-Softmax を用いた正方形から線形(および後方)への自己認識の複雑さのシフト
Authors: Tobias Christian Nauen, Sebastian Palacio, Andreas Dengel
Abstract要約: 本稿では,線形時間と空間におけるトークン間相互作用の完全な計算を可能にするテイラーソフトマックスの新たな再構成であるTaylorShiftを紹介する。具体的には,TaylorShiftは800トークンまでのシーケンスのメモリ効率を向上し,約1700トークン以上の入力の推論を高速化することを示した。
参考スコア（独自算出の注目度）: 6.701127328655752
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The quadratic complexity of the attention mechanism represents one of the biggest hurdles for processing long sequences using Transformers. Current methods, relying on sparse representations or stateful recurrence, sacrifice token-to-token interactions, which ultimately leads to compromises in performance. This paper introduces TaylorShift, a novel reformulation of the Taylor softmax that enables computing full token-to-token interactions in linear time and space. We analytically determine the crossover points where employing TaylorShift becomes more efficient than traditional attention, aligning closely with empirical measurements. Specifically, our findings demonstrate that TaylorShift enhances memory efficiency for sequences as short as 800 tokens and accelerates inference for inputs of approximately 1700 tokens and beyond. For shorter sequences, TaylorShift scales comparably with the vanilla attention. Furthermore, a classification benchmark across five tasks involving long sequences reveals no degradation in accuracy when employing Transformers equipped with TaylorShift. For reproducibility, we provide access to our code under https://github.com/tobna/TaylorShift.
Abstract（参考訳）: 注意機構の二次的な複雑さは、トランスフォーマーを使用して長いシーケンスを処理するための最大のハードルの1つである。現在のメソッドはスパース表現やステートフルな繰り返しに依存しており、トークンとトークンのインタラクションを犠牲にしている。本稿では,線形時間と空間におけるトークン間相互作用の完全な計算を可能にするテイラーソフトマックスの新たな再構成であるTaylorShiftを紹介する。従来の注意よりもtaylorshiftを採用する方が効率的となるクロスオーバーポイントを解析的に決定し,経験的測定と密接に連携する。具体的には,taylorshiftが800トークンまでのシーケンスのメモリ効率を高め,約1700トークン以上の入力の推論を高速化することを示す。短いシーケンスでは、TaylorShiftはバニラの注意と互換性を持ってスケールする。さらに、長いシーケンスを含む5つのタスクにまたがる分類ベンチマークでは、taylorshiftを備えたトランスフォーマーを使用する場合、精度が低下しない。再現性のために、https://github.com/tobna/TaylorShift.comでコードにアクセスします。

関連論文リスト

Manifold-Preserving Transformers are Effective for Short-Long Range Encoding [39.14128923434994]
マルチヘッドセルフアテンションベースのトランスフォーマーは、異なる学習タスクにおいて有望であることを示す。本研究では,一対のトークン間の層間距離保存を理論的に保証するエンコーダモデルTransJectを提案する。
論文参考訳（メタデータ） (2023-10-22T06:58:28Z)
Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing Important Tokens [65.4435926060951]
本稿では,超長周期の変換器の効率を,各層でより小さな表現に圧縮することで向上することを提案する。我々のアルゴリズムは効率的であるだけでなく(4Kと16Kのベースラインに比べて3倍以上の効率向上を達成する)、多数のタスクで競合/ベターパフォーマンスを提供する。
論文参考訳（メタデータ） (2023-05-07T10:32:18Z)
Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文参考訳（メタデータ） (2022-07-05T03:08:27Z)
Transkimmer: Transformer Learns to Layer-wise Skim [17.188613474427054]
Transformerベースのモデルの主要な計算非効率の1つは、すべての層で同じ量の計算に費やしていることである。本稿では,レイヤ毎に不要な隠れ状態トークンを識別するTranskimmerアーキテクチャを提案する。スキミングされたトークンは直接最終出力に転送され、連続するレイヤの計算が削減される。
論文参考訳（メタデータ） (2022-05-15T16:23:30Z)
Block-Recurrent Transformers [49.07682696216708]
本稿では,逐次的にトランス層を適用するBlock-Recurrent Transformerを提案する。我々のリカレントセルはシングルトークンではなくトークンブロック上で動作し、アクセルハードウェアを効率的に活用するためにブロック内の並列計算を利用する。
論文参考訳（メタデータ） (2022-03-11T23:44:33Z)
cosFormer: Rethinking Softmax in Attention [60.557869510885205]
カーネルメソッドは、ソフトマックス演算子を近似することで複雑さを減らすためにしばしば採用される。近似誤差のため、それらのパフォーマンスは異なるタスク/コーパスで異なり、重要なパフォーマンス低下を被る。本稿では,バニラ変圧器に匹敵する精度を達成できる,cosFormerと呼ばれる線形変圧器を提案する。
論文参考訳（メタデータ） (2022-02-17T17:53:48Z)
SOFT: Softmax-free Transformer with Linear Complexity [112.9754491864247]
視覚変換器(ViT)は、パッチワイド画像トークン化と自己認識によって、様々な視覚認識タスクの最先端を推し進めている。線形複雑度で自己注意を近似する様々な試みが自然言語処理で行われている。これらの制限は、近似中にソフトマックスの自己注意を維持することに根ざしている。ソフトマックスフリー変圧器(SOFT)を初めて提案する。
論文参考訳（メタデータ） (2021-10-22T17:57:29Z)
FNet: Mixing Tokens with Fourier Transforms [0.578717214982749]
Transformerエンコーダアーキテクチャは、限られた精度コストで大幅に高速化できることを示しています。入力トークンを「混合」する単純な線形変換に自己着脱部分層を置き換える。 FNetと呼ばれる結果のモデルは、長い入力に対して非常に効率的にスケールします。
論文参考訳（メタデータ） (2021-05-09T03:32:48Z)
Nystr\"omformer: A Nystr\"om-Based Algorithm for Approximating Self-Attention [60.043273122786005]
我々は,シーケンス長の関数として優れたスケーラビリティを示すモデルであるNystr"omformerを提案する。 Nystr"omformerのスケーラビリティにより、アプリケーションは数千のトークンで長いシーケンスを実行できる。 GLUEベンチマークで複数のダウンストリームタスクの評価を行い、標準シーケンス長のレビューを行い、我々のNystrオムフォーマが標準トランスフォーマよりも相容れないか、あるいはいくつかのケースで若干改善されていることを確認した。
論文参考訳（メタデータ） (2021-02-07T20:06:59Z)
Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention [22.228028613802174]
トランスフォーマーは、いくつかのタスクで顕著なパフォーマンスを達成するが、その二次的な複雑さのため、非常に長いシーケンスでは明らかに遅い。我々は行列積の連想性を利用して複雑さを$mathcalOleft(N2right)$から$mathcalOleft(Nright)$に減らし、$N$はシーケンス長である。線形変圧器はバニラ変圧器と同等の性能を示し、非常に長いシーケンスの自己回帰予測では最大4000倍高速である。
論文参考訳（メタデータ） (2020-06-29T17:55:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。