論文の概要: A Study on ReLU and Softmax in Transformer
- arxiv url: http://arxiv.org/abs/2302.06461v1
- Date: Mon, 13 Feb 2023 15:41:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 15:04:00.867805
- Title: A Study on ReLU and Softmax in Transformer
- Title(参考訳): 変圧器のReLUとソフトマックスに関する研究
- Authors: Kai Shen, Junliang Guo, Xu Tan, Siliang Tang, Rui Wang, Jiang Bian
- Abstract要約: Transformerアーキテクチャは、キーバリューメモリと見なせる自己アテンションとフィードフォワードネットワーク(FFN)で構成されている。
まず、FFNとキー値メモリの接続をReLUとSoftmaxの広範な研究により再構築する。
さらに、ReLUは値スロット数が大きければFFNとキー値メモリの両方でSoftmaxより優れている。
- 参考スコア(独自算出の注目度): 51.0740713922741
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The Transformer architecture consists of self-attention and feed-forward
networks (FFNs) which can be viewed as key-value memories according to previous
works. However, FFN and traditional memory utilize different activation
functions (i.e., ReLU and Softmax respectively), which makes them not
equivalent. In this paper, we first rebuild the connections between FFN and
key-value memory by conducting extensive studies on ReLU and Softmax, and find
they are equivalent when adding an additional layer normalization module on
Softmax. In addition, ReLU outperforms Softmax on both FFN and key-value memory
when the number of value slots is large. We analyze the reasons and then
explore this good property of ReLU on the self-attention network where the
original Softmax activation performs poorly on long input sequences. We then
propose a full ReLU architecture named ReLUFormer which performs better than
the baseline Transformer on long sequence tasks such as document translation.
This paper sheds light on the following points: 1) Softmax and ReLU use
different normalization methods over elements which lead to different variances
of results, and ReLU is good at dealing with a large number of key-value slots;
2) FFN and key-value memory are equivalent, and thus the Transformer can be
viewed as a memory network where FFNs and self-attention networks are both
key-value memories.
- Abstract(参考訳): Transformer アーキテクチャは自己アテンションとフィードフォワードネットワーク (FFN) で構成されており、前回の作業ではキーバリューメモリとみなすことができる。
しかし、FFNと従来のメモリは異なるアクティベーション関数(それぞれReLUとSoftmax)を利用しており、それらは等価ではない。
本稿では,まず,ffn とキー値メモリとの接続を,relu と softmax に関する広範囲な研究により再構築し,softmax に層正規化モジュールを追加する場合の等価性を見出す。
さらに、ReLUは値スロット数が大きければFFNとキー値メモリの両方でSoftmaxより優れている。
この理由を解析し, ソフトマックスのアクティベーションが長い入力シーケンスで不十分な自己アテンションネットワーク上でReLUの優れた特性を探索する。
次に、文書翻訳などの長いシーケンスタスクにおいて、ベースライントランスフォーマーよりも優れた性能を発揮するReLUFormerという完全なReLUアーキテクチャを提案する。
本稿は以下の点に光を当てる。
1) softmax と relu は、結果のばらつきの異なる要素に対する異なる正規化手法を使用し、relu は多数のキー値スロットを扱うのが得意である。
2)ffnとキー値メモリは等価であり、したがってトランスフォーマーはffnとセルフアテンションネットワークがどちらもキー値メモリであるメモリネットワークと見なすことができる。
関連論文リスト
- Reducing Fine-Tuning Memory Overhead by Approximate and Memory-Sharing Backpropagation [29.139579820699495]
この研究は、活性化関数と層正規化の観点から微調整におけるメモリオーバーヘッドを低減することを目的としている。
提案手法をバックプロパゲーショントレーニングに適用し,GELUおよびSiLU活性化関数のメモリ効率の代替を導出する。
さらに、メモリ共有バックプロパゲーション戦略を導入し、アクティベーションメモリを2つの隣接層で共有できるようにする。
論文 参考訳(メタデータ) (2024-06-24T03:09:15Z) - MetaMixer Is All You Need [6.8410780175245165]
Transformerは、自己注意とフィードフォワードネットワークで構成され、様々なビジョンタスクにわたるネットワークデザインの展望に革命をもたらした。
最近の研究は、FFNがキー値記憶のような機能を持っていることも示している。
本稿では,自己注意をよりFFN様の効率的なトークンミキサーに変換することを提案する。
論文 参考訳(メタデータ) (2024-06-04T07:00:14Z) - Empirical Study on Updating Key-Value Memories in Transformer
Feed-forward Layers [27.636372947415186]
トランスにおけるフィードフォワードネットワーク(FFN)は、抽象的な高レベルの知識を復元するキーバリューニューラルメモリのグループとして認識される。
我々は、キー(FFNs層の第1層)または値の更新に関する実証的アブレーション研究を行う。
我々はこれらの2つの手法を、様々な知識編集と大規模言語モデルの微調整タスクで比較し、FFNの理解を深めるために洞察を引き出す。
論文 参考訳(メタデータ) (2024-02-19T15:42:54Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - Revisiting the Architectures like Pointer Networks to Efficiently
Improve the Next Word Distribution, Summarization Factuality, and Beyond [37.96043934146189]
本稿では,ポインタネットワークを簡素化し,単語ごとのリランカを高速化することで,いくつかのソフトマックス代替案を提案する。
GPT-2では,提案手法はソフトマックスの混合よりも有意に効率的かつ効率的である。
T5-Smallに基づく最良の方法は、CNN/DMおよびXSUMデータセットにおいてファクトCCスコアを2ポイント改善し、ブックサム段落レベルのデータセットではMAUVEスコアを30%改善する。
論文 参考訳(メタデータ) (2023-05-20T21:52:24Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - Recurrent Dynamic Embedding for Video Object Segmentation [54.52527157232795]
一定サイズのメモリバンクを構築するためにRDE(Recurrent Dynamic Embedding)を提案する。
本稿では, SAM を長時間の動画でより堅牢にするため, トレーニング段階での無バイアス誘導損失を提案する。
また、メモリバンクの異なる品質のマスクの埋め込みをネットワークが修復できるように、新たな自己補正戦略を設計する。
論文 参考訳(メタデータ) (2022-05-08T02:24:43Z) - Breaking the Softmax Bottleneck for Sequential Recommender Systems with
Dropout and Decoupling [0.0]
SBRSのSoftmaxボトルネックには、さらに多くの側面があることが示されています。
そこで本研究では,これらの問題を緩和するために,D&D(Dropout and Decoupling)というシンプルな手法を提案する。
本手法は,様々なSoftmaxベースのSBRSアルゴリズムの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-11T16:52:23Z) - Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。
我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。
分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-14T17:52:38Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。