論文の概要: Treeformer: Dense Gradient Trees for Efficient Attention Computation
- arxiv url: http://arxiv.org/abs/2208.09015v1
- Date: Thu, 18 Aug 2022 18:31:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-22 16:43:15.057286
- Title: Treeformer: Dense Gradient Trees for Efficient Attention Computation
- Title(参考訳): Treeformer: 効率的な注意計算のための高密度勾配木
- Authors: Lovish Madaan, Srinadh Bhojanapalli, Himanshu Jain, Prateek Jain
- Abstract要約: カーネルを用いて注目度、低ランク、近似などの異なる注意構造を強制することにより、注意計算を高速化する方法を示す。
このような階層的なナビゲーションに基づいて、TF-AttentionとTC-Attentionという2つの効率的な注意層のうちの1つを使用できるTreeformerを設計する。
注意層に30倍少ないFLOPを使用しながら,私たちのTreeformerアーキテクチャはベースライントランスフォーマーとほぼ同等の精度で動作可能であることを実証した。
- 参考スコア(独自算出の注目度): 24.045251327736814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard inference and training with transformer based architectures scale
quadratically with input sequence length. This is prohibitively large for a
variety of applications especially in web-page translation, query-answering
etc. Consequently, several approaches have been developed recently to speedup
attention computation by enforcing different attention structures such as
sparsity, low-rank, approximating attention using kernels. In this work, we
view attention computation as that of nearest neighbor retrieval, and use
decision tree based hierarchical navigation to reduce the retrieval cost per
query token from linear in sequence length to nearly logarithmic. Based on such
hierarchical navigation, we design Treeformer which can use one of two
efficient attention layers -- TF-Attention and TC-Attention. TF-Attention
computes the attention in a fine-grained style, while TC-Attention is a coarse
attention layer which also ensures that the gradients are "dense". To optimize
such challenging discrete layers, we propose a two-level bootstrapped training
method. Using extensive experiments on standard NLP benchmarks, especially for
long-sequences, we demonstrate that our Treeformer architecture can be almost
as accurate as baseline Transformer while using 30x lesser FLOPs in the
attention layer. Compared to Linformer, the accuracy can be as much as 12%
higher while using similar FLOPs in the attention layer.
- Abstract(参考訳): トランスベースアーキテクチャによる標準推論とトレーニングは、入力シーケンス長と2倍スケールする。
これは、特にWebページの翻訳、クエリー回答などにおいて、様々なアプリケーションにとって違法に大きい。
その結果、近年、カーネルを用いて注目度、低ランク、近似などの異なる注意構造を強制することにより、注意計算を高速化するアプローチが開発されている。
本研究では,アテンション計算を近接探索の手法とみなし,決定木に基づく階層ナビゲーションを用いて,クエリトークン毎の検索コストを線形列長からほぼ対数長に削減する。
このような階層的なナビゲーションに基づいて、TF-AttentionとTC-Attentionという2つの効率的な注意層のうちの1つを使用できるTreeformerを設計する。
TF-Attentionは細かなスタイルで注意を計算し、TC-Attentionは粗い注意層であり、勾配が「密度」であることを保証する。
このような難易度の高い離散層を最適化するために,2段階のブートストラップドトレーニング手法を提案する。
標準NLPベンチマークの広範な実験、特に長周期では、注意層に30倍少ないFLOPを使用しながら、ベースライントランスフォーマーとほぼ同等の精度でツリーフォーマーアーキテクチャが実現可能であることを示す。
Linformerと比較すると、注意層で同様のFLOPを使用する場合、精度は最大12%向上する。
関連論文リスト
- Tree Attention: Topology-aware Decoding for Long-Context Attention on GPU clusters [10.403248386029407]
自己アテンションは、シーケンス長の複雑さのため、重要な計算ボトルネックである。
本研究では、勾配が自己アテンションブロックを計算するスカラーエネルギー関数を導出する。
我々の定式化により,木伐採により,配列軸を横断する還元を効率的に並列に計算できることが判明した。
論文 参考訳(メタデータ) (2024-08-07T21:16:55Z) - Dynamic Perceiver for Efficient Visual Recognition [87.08210214417309]
特徴抽出手順と早期分類タスクを分離する動的知覚器(Dyn-Perceiver)を提案する。
特徴ブランチは画像の特徴を抽出し、分類ブランチは分類タスクに割り当てられた遅延コードを処理する。
早期出口は分類枝に限られており、低レベルの特徴において線形分離性は不要である。
論文 参考訳(メタデータ) (2023-06-20T03:00:22Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - DCT-Former: Efficient Self-Attention with Discrete Cosine Transform [4.622165486890318]
トラスフォルマーアーキテクチャの本質的な制限は、ドット積の注意の計算から生じる。
我々のアイデアは、アテンションモジュールの近似を導き出すために、損失の多いデータ圧縮(JPEGアルゴリズムなど)の世界からインスピレーションを得ている。
実験の広範なセクションでは,提案手法が同一性能のメモリを消費しにくくする一方で,推定時間を大幅に削減することを示した。
論文 参考訳(メタデータ) (2022-03-02T15:25:27Z) - Learning strides in convolutional neural networks [34.20666933112202]
この研究は、学習可能なステップを持つ最初のダウンサンプリング層であるDiffStrideを紹介している。
音声と画像の分類実験は,ソリューションの汎用性と有効性を示す。
論文 参考訳(メタデータ) (2022-02-03T16:03:36Z) - Augmenting Convolutional networks with attention-based aggregation [55.97184767391253]
我々は,非局所的推論を実現するために,注目に基づくグローバルマップを用いた畳み込みネットワークの強化方法を示す。
この学習集約層を2つのパラメータ(幅と深さ)でパラメータ化した単純パッチベースの畳み込みネットワークで接続する。
これは、特にメモリ消費の点で、精度と複雑さの間の驚くほど競争力のあるトレードオフをもたらす。
論文 参考訳(メタデータ) (2021-12-27T14:05:41Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - Self Normalizing Flows [65.73510214694987]
本稿では,各層における学習された近似逆数により,勾配の高価な項を置き換えることで,フローの正規化を訓練するための柔軟なフレームワークを提案する。
これにより、各レイヤの正確な更新の計算複雑性が$mathcalO(D3)$から$mathcalO(D2)$に削減される。
実験により,これらのモデルは非常に安定であり,正確な勾配値と類似したデータ可能性値に最適化可能であることが示された。
論文 参考訳(メタデータ) (2020-11-14T09:51:51Z) - Layer-adaptive sparsity for the Magnitude-based Pruning [88.37510230946478]
本稿では,LAMP(Layer-Adaptive magnitude-based pruning)スコアを用いたグローバルプルーニングの新たな重要点を提案する。
LAMPは、階層的な空間選択のための一般的なスキームを一貫して上回っている。
論文 参考訳(メタデータ) (2020-10-15T09:14:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。