論文の概要: PairConnect: A Compute-Efficient MLP Alternative to Attention
- arxiv url: http://arxiv.org/abs/2106.08235v1
- Date: Tue, 15 Jun 2021 15:39:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-16 15:32:19.703188
- Title: PairConnect: A Compute-Efficient MLP Alternative to Attention
- Title(参考訳): PairConnect: 注意の代替となる計算効率の良いMLP
- Authors: Zhaozhuo Xu, Minghao Yan, Junyan Zhang, Anshumali Shrivastava
- Abstract要約: メモリを多用するが、Transformerの計算効率は大幅に向上した。
提案手法はPairConnectと呼ばれ,単語間のペアワイドな相互作用を明示的なペアワイドな単語埋め込みによってモデル化する。
言語モデリング実験の結果,PairConnect は Transformer と同等の計算コストを抑えつつ,計算コストを大幅に削減できる可能性が示唆された。
- 参考スコア(独自算出の注目度): 31.659580535552184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer models have demonstrated superior performance in natural language
processing. The dot product self-attention in Transformer allows us to model
interactions between words. However, this modeling comes with significant
computational overhead. In this work, we revisit the memory-compute trade-off
associated with Transformer, particularly multi-head attention, and show a
memory-heavy but significantly more compute-efficient alternative to
Transformer. Our proposal, denoted as PairConnect, a multilayer perceptron
(MLP), models the pairwise interaction between words by explicit pairwise word
embeddings. As a result, PairConnect substitutes self dot product with a simple
embedding lookup. We show mathematically that despite being an MLP, our
compute-efficient PairConnect is strictly more expressive than Transformer. Our
experiment on language modeling tasks suggests that PairConnect could achieve
comparable results with Transformer while reducing the computational cost
associated with inference significantly.
- Abstract(参考訳): トランスフォーマーモデルは自然言語処理において優れた性能を示している。
Transformerのドット製品は、単語間の相互作用をモデル化することができる。
しかし、このモデリングにはかなりの計算オーバーヘッドが伴う。
本稿では,Transformerに関連するメモリ計算トレードオフ,特にマルチヘッドアテンションを再検討し,Transformerのメモリ重大だが計算効率のよい代替手段を示す。
提案手法は多層パーセプトロン (mlp) である pairconnect と呼ばれ, 明示的なペアワイズワード埋め込みによって単語間のペアワイズ相互作用をモデル化する。
その結果、PairConnectはシンプルな埋め込みルックアップでセルフドット製品を置き換える。
MLPであるにもかかわらず、計算効率のよいPairConnectはTransformerよりも厳密に表現可能であることを示す。
言語モデリングタスクの実験から,PairConnect は Transformer と同等な結果が得られる一方で,推論に伴う計算コストを大幅に削減できる可能性が示唆された。
関連論文リスト
- MemoryFormer: Minimize Transformer Computation by Removing Fully-Connected Layers [43.39466934693055]
本稿では,新しい視点から計算複雑性(FLOP)を大幅に低減する,新しいトランスフォーマーアーキテクチャであるMemoryFormerを提案する。
これは、完全連結層の線形射影を置き換えるために、特徴変換の代替手法を利用することで実現される。
提案手法の有効性を示すため,様々なベンチマーク実験を行った。
論文 参考訳(メタデータ) (2024-11-20T02:41:53Z) - ConvMixFormer- A Resource-efficient Convolution Mixer for Transformer-based Dynamic Hand Gesture Recognition [5.311735227179715]
動的ハンドジェスチャのための新しいConvMixFormerアーキテクチャを探索し,考案する。
提案手法は,NVidia Dynamic Hand Gesture と Briareo のデータセットを用いて評価する。
我々のモデルは、単一およびマルチモーダル入力に対して最先端の結果を得た。
論文 参考訳(メタデータ) (2024-11-11T16:45:18Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Efficient Language Modeling with Sparse all-MLP [53.81435968051093]
すべてのMLPは、言語モデリングにおいてTransformerと一致するが、下流タスクではまだ遅れている。
特徴量と入力量の両方でMoE(Mix-of-Experts)を混合したスパースオールMLPを提案する。
6つの下流タスクにおいて、ゼロショットのインコンテキスト学習性能を評価し、トランスフォーマーベースのMoEや高密度トランスフォーマーを上回る結果を得た。
論文 参考訳(メタデータ) (2022-03-14T04:32:19Z) - Fastformer: Additive Attention Can Be All You Need [51.79399904527525]
本稿では,加法的注意に基づく効率的なトランスフォーマーモデルであるFastformerを提案する。
Fastformerでは、トークン間のペアワイズインタラクションをモデル化する代わりに、まずグローバルコンテキストをモデル化するために追加アテンションメカニズムを使用します。
このように、Fastformerは線形複雑性を伴う効果的なコンテキストモデリングを実現することができる。
論文 参考訳(メタデータ) (2021-08-20T09:44:44Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - Subformer: Exploring Weight Sharing for Parameter Efficiency in
Generative Transformers [16.88840622945725]
パラメータ効率の良いトランスフォーマーモデルであるSubformerを開発した。
機械翻訳、抽象的要約、および言語モデリングに関する実験は、サブフォーマーが大幅に少ないパラメータを使用してもトランスフォーマーを上回ることができることを示しています。
論文 参考訳(メタデータ) (2021-01-01T13:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。