論文の概要: Predicting Attention Sparsity in Transformers
- arxiv url: http://arxiv.org/abs/2109.12188v1
- Date: Fri, 24 Sep 2021 20:51:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 15:40:42.415097
- Title: Predicting Attention Sparsity in Transformers
- Title(参考訳): 変圧器の注意スパーシティ予測
- Authors: Marcos Treviso, Ant\'onio G\'ois, Patrick Fernandes, Erick Fonseca,
Andr\'e F. T. Martins
- Abstract要約: 本稿では, 遠心注意の空間パターンを計算前に同定するモデルであるスペーサーファインダーを提案する。
我々の研究は、予測された注目グラフの間隔とリコールの間のトレードオフを広範囲に分析することで、モデル効率を研究するための新しい角度を提供する。
- 参考スコア(独自算出の注目度): 0.9786690381850356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A bottleneck in transformer architectures is their quadratic complexity with
respect to the input sequence, which has motivated a body of work on efficient
sparse approximations to softmax. An alternative path, used by entmax
transformers, consists of having built-in exact sparse attention; however this
approach still requires quadratic computation. In this paper, we propose
Sparsefinder, a simple model trained to identify the sparsity pattern of entmax
attention before computing it. We experiment with three variants of our method,
based on distances, quantization, and clustering, on two tasks: machine
translation (attention in the decoder) and masked language modeling
(encoder-only). Our work provides a new angle to study model efficiency by
doing extensive analysis of the tradeoff between the sparsity and recall of the
predicted attention graph. This allows for detailed comparison between
different models, and may guide future benchmarks for sparse models.
- Abstract(参考訳): トランスフォーマーアーキテクチャのボトルネックは、入力シーケンスに関する二次複雑性であり、softmaxへの効率的なスパース近似の作業の動機となっている。
entmax変換器が使用する代替パスは、厳密な注意を組み込んだものであるが、このアプローチには2次計算が必要である。
本稿では,entmax の注意のスパースパターンを計算前に識別するために訓練されたモデルである sparsefinder を提案する。
距離,量子化,クラスタリングをベースとした3種類の手法を,機械翻訳(デコーダのアテンション)とマスキング言語モデリング(エンコーダのみ)の2つのタスクで実験した。
本研究は,予測した注意グラフのスパーシティとリコールのトレードオフを広範囲に分析することにより,モデルの効率性を研究するための新たな角度を提供する。
これにより、異なるモデル間の詳細な比較が可能になり、スパースモデルの将来のベンチマークをガイドすることができる。
関連論文リスト
- The Persian Rug: solving toy models of superposition using large-scale symmetries [0.0]
入力次元が大きければ最小限の非線形スパースデータオートエンコーダによって学習されたアルゴリズムの完全なメカニスティック記述を示す。
我々の研究は、オートエンコーダの構造を理解する技術を導入することによって、ニューラルネットワークの解釈可能性に貢献している。
論文 参考訳(メタデータ) (2024-10-15T22:52:45Z) - Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。
バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - Pre-Trained Model Recommendation for Downstream Fine-tuning [22.343011779348682]
モデル選択は、市販の事前訓練されたモデルをランク付けし、新しいターゲットタスクに最も適したモデルを選択することを目的としている。
既存のモデル選択テクニックはスコープ内で制約されることが多く、モデルとタスク間の微妙な関係を見落としてしまう傾向があります。
我々は,多種多様な大規模モデルリポジトリを探索する実用的フレームワーク textbfFennec を提案する。
論文 参考訳(メタデータ) (2024-03-11T02:24:32Z) - Transformers meet Stochastic Block Models: Attention with Data-Adaptive
Sparsity and Cost [53.746169882193456]
最近の研究は、自己注意の二次的コストを克服するために、様々なスパークアテンションモジュールを提案している。
本稿では,それぞれの注意を混合メンバーシップブロックモデルで表現することで,両方の問題を解決するモデルを提案する。
我々のモデルは、以前の効率的な変種とオリジナルのトランスフォーマーより優れており、十分に注目されています。
論文 参考訳(メタデータ) (2022-10-27T15:30:52Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Sketching as a Tool for Understanding and Accelerating Self-attention
for Long Sequences [52.6022911513076]
トランスフォーマーベースのモデルは、自己アテンションモジュールの二次空間と時間的複雑さのために、長いシーケンスを処理するのに効率的ではない。
我々はLinformerとInformerを提案し、低次元投影と行選択により2次複雑性を線形(モジュラー対数因子)に還元する。
理論的解析に基づいて,Skeinformerを提案することにより,自己注意の促進と,自己注意への行列近似の精度の向上を図ることができる。
論文 参考訳(メタデータ) (2021-12-10T06:58:05Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - AxFormer: Accuracy-driven Approximation of Transformers for Faster,
Smaller and more Accurate NLP Models [4.247712017691596]
AxFormerは、特定の下流タスクのために最適化されたトランスフォーマーモデルを作成するために、精度駆動の近似を適用するフレームワークである。
実験の結果,AxFormerモデルの方が最大4.5%精度が高く,2.5倍高速で3.2倍小型であることがわかった。
論文 参考訳(メタデータ) (2020-10-07T23:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。