論文の概要: Selective Attention Improves Transformer
- arxiv url: http://arxiv.org/abs/2410.02703v1
- Date: Thu, 3 Oct 2024 17:27:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 01:32:59.511856
- Title: Selective Attention Improves Transformer
- Title(参考訳): Selective AttentionがTransformerを改善
- Authors: Yaniv Leviathan, Matan Kalman, Yossi Matias,
- Abstract要約: 選択的注意(Selective Attention)は、必要のない要素への注意を減らすための、標準の注意機構に対する単純なパラメータフリーな変更である。
例えば、C4で言語モデリングの目的を学習したトランスフォーマーは、注目モジュールの2倍のヘッダとパラメータを持つ標準トランスフォーマーと同等に機能する。
- 参考スコア(独自算出の注目度): 8.205283788779333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unneeded elements in the attention's context degrade performance. We introduce Selective Attention, a simple parameter-free change to the standard attention mechanism which reduces attention to unneeded elements. Selective attention improves language modeling performance in a variety of model sizes and context lengths. For example, a range of transformers trained with the language modeling objective on C4 with selective attention perform equivalently to standard transformers with ~2X more heads and parameters in their attention modules. Selective attention also allows decreasing the size of the attention's context buffer, leading to meaningful reductions in the memory and compute requirements during inference. For example, transformers with 100M parameters trained on C4 with context sizes of 512, 1,024, and 2,048 need 16X, 25X, and 47X less memory for their attention module, respectively, when equipped with selective attention, as those without selective attention, with the same validation perplexity.
- Abstract(参考訳): 注意の文脈にある無意味な要素はパフォーマンスを低下させる。
選択的注意(Selective Attention)は、必要のない要素への注意を減らすための、標準の注意機構に対する単純なパラメータフリーな変更である。
選択的注意力は、様々なモデルサイズとコンテキスト長における言語モデリング性能を向上させる。
例えば、C4で言語モデリングの目的を学習したトランスフォーマーのレンジは、注意モジュールに2倍以上の頭とパラメータを持つ標準トランスフォーマーと同等に機能する。
選択的な注意はまた、アテンションのコンテキストバッファのサイズを減らし、推論中にメモリと計算要求を有意義に減少させる。
例えば、C4上でトレーニングされた100Mパラメータが512、1,024、および2,048のコンテクストサイズを持つトランスフォーマーは、それぞれ16X、25X、47Xのメモリを必要とする。
関連論文リスト
- DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。
DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-09-04T08:26:47Z) - When to Use Efficient Self Attention? Profiling Text, Speech and Image
Transformer Variants [39.00433193973159]
本研究は,テキスト,音声,視覚にまたがる自己注意型トランスフォーマーの効率性に関する,最初の統一的研究である。
効率の良いトランスフォーマー変種がバニラモデルよりも効率的になる入力長閾値(タイピング点)を同定する。
そこで本研究では,L-HuBERTを導入した。L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L -HuBERT,L-H
論文 参考訳(メタデータ) (2023-06-14T17:59:02Z) - Segmented Recurrent Transformer: An Efficient Sequence-to-Sequence Model [10.473819332984005]
分割された(局所的な)注意と再帰的な注意を結合した分節再帰変圧器(SRformer)を提案する。
提案モデルでは,分割変圧器よりも高いROUGE1スコアを6-22%で達成し,他の再帰変圧器よりも優れている。
論文 参考訳(メタデータ) (2023-05-24T03:47:22Z) - Hyena Hierarchy: Towards Larger Convolutional Language Models [115.82857881546089]
ハイエナは、暗黙的にパラメトリケートされた長い畳み込みとデータ制御ゲーティングをインターリーブすることによって構築された注意のための準四分法的なドロップイン置換である。
数千から数十万のトークン列のリコールおよび推論タスクにおいて、ハイエナは状態空間やその他の暗黙的かつ明示的なメソッドに依存する演算子よりも50ポイント以上精度を向上させる。
論文 参考訳(メタデータ) (2023-02-21T18:29:25Z) - Shapley Head Pruning: Identifying and Removing Interference in
Multilingual Transformers [54.4919139401528]
言語固有のパラメータを識別・解析することで干渉を減らすことができることを示す。
固定モデルから同定された注目ヘッドを除去することで、文分類と構造予測の両方において、ターゲット言語の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-10-11T18:11:37Z) - Transformer Quality in Linear Time [95.2692237947444]
本稿では,トランスフォーマーの設計選択を再考し,長いシーケンスを扱う際の弱点に対処する手法を提案する。
まず,低品質な単一ヘッドアテンションを最小限に設定できる,ゲートアテンションユニットというシンプルなレイヤを提案する。
そこで我々は,この新層を補完する線形近似法を提案する。
論文 参考訳(メタデータ) (2022-02-21T18:59:38Z) - Couplformer:Rethinking Vision Transformer with Coupling Attention Map [7.789667260916264]
Transformerモデルはコンピュータビジョン領域において優れた性能を示した。
本稿では,2つのサブ行列にアテンションマップを分割する,Couplformerという新しいメモリエコノミーアテンション機構を提案する。
実験の結果、Couplformerは通常のTransformerに比べて28%のメモリ消費を著しく削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T10:05:35Z) - Focal Self-attention for Local-Global Interactions in Vision
Transformers [90.9169644436091]
局所的局所的相互作用と粗大な大域的相互作用の両方を包含する新しいメカニズムである焦点自己アテンションを提示する。
焦点自己アテンションを用いて、最先端の視覚変換器よりも優れた性能を実現する、Focal Transformerと呼ばれる新しい視覚変換器モデルを提案する。
論文 参考訳(メタデータ) (2021-07-01T17:56:09Z) - Input-independent Attention Weights Are Expressive Enough: A Study of
Attention in Self-supervised Audio Transformers [55.40032342541187]
我々は、自己教師付きアルゴリズムを用いたトランスフォーマーベースモデルを事前訓練し、下流タスクにおける特徴抽出器として扱う。
このアプローチでは、トレーニングと推論の両方において、通常の自己注意と同等のパフォーマンスで20%の時間を要することが示されています。
論文 参考訳(メタデータ) (2020-06-09T10:40:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。