Fugu-MT 論文翻訳(概要): PairConnect: A Compute-Efficient MLP Alternative to Attention

論文の概要: PairConnect: A Compute-Efficient MLP Alternative to Attention

arxiv url: http://arxiv.org/abs/2106.08235v1
Date: Tue, 15 Jun 2021 15:39:45 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-16 15:32:19.703188
Title: PairConnect: A Compute-Efficient MLP Alternative to Attention
Title（参考訳）: PairConnect: 注意の代替となる計算効率の良いMLP
Authors: Zhaozhuo Xu, Minghao Yan, Junyan Zhang, Anshumali Shrivastava
Abstract要約: メモリを多用するが、Transformerの計算効率は大幅に向上した。提案手法はPairConnectと呼ばれ,単語間のペアワイドな相互作用を明示的なペアワイドな単語埋め込みによってモデル化する。言語モデリング実験の結果,PairConnect は Transformer と同等の計算コストを抑えつつ,計算コストを大幅に削減できる可能性が示唆された。
参考スコア（独自算出の注目度）: 31.659580535552184
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformer models have demonstrated superior performance in natural language processing. The dot product self-attention in Transformer allows us to model interactions between words. However, this modeling comes with significant computational overhead. In this work, we revisit the memory-compute trade-off associated with Transformer, particularly multi-head attention, and show a memory-heavy but significantly more compute-efficient alternative to Transformer. Our proposal, denoted as PairConnect, a multilayer perceptron (MLP), models the pairwise interaction between words by explicit pairwise word embeddings. As a result, PairConnect substitutes self dot product with a simple embedding lookup. We show mathematically that despite being an MLP, our compute-efficient PairConnect is strictly more expressive than Transformer. Our experiment on language modeling tasks suggests that PairConnect could achieve comparable results with Transformer while reducing the computational cost associated with inference significantly.
Abstract（参考訳）: トランスフォーマーモデルは自然言語処理において優れた性能を示している。 Transformerのドット製品は、単語間の相互作用をモデル化することができる。しかし、このモデリングにはかなりの計算オーバーヘッドが伴う。本稿では,Transformerに関連するメモリ計算トレードオフ,特にマルチヘッドアテンションを再検討し,Transformerのメモリ重大だが計算効率のよい代替手段を示す。提案手法は多層パーセプトロン (mlp) である pairconnect と呼ばれ, 明示的なペアワイズワード埋め込みによって単語間のペアワイズ相互作用をモデル化する。その結果、PairConnectはシンプルな埋め込みルックアップでセルフドット製品を置き換える。 MLPであるにもかかわらず、計算効率のよいPairConnectはTransformerよりも厳密に表現可能であることを示す。言語モデリングタスクの実験から,PairConnect は Transformer と同等な結果が得られる一方で,推論に伴う計算コストを大幅に削減できる可能性が示唆された。

関連論文リスト

Parameter-Efficient Transformer Embeddings [0.0]
本稿では,トークンの埋め込みベクトルをトークンIDから直接決定的に生成する手法を提案する。自然言語推論タスクで標準トランスフォーマーとアーキテクチャをトレーニングします。提案手法は, パラメータをはるかに少なくし, 高速かつ効果的に動作し, ドロップアウトを必要とせずに性能を向上することを示した。
論文参考訳（メタデータ） (2025-05-04T21:47:18Z)
Comateformer: Combined Attention Transformer for Semantic Sentence Matching [11.746010399185437]
本稿では,トランスフォーマーモデルに基づくコンバインド・アテンション・ネットワークという新しい意味文マッチングモデルを提案する。 Comateformer モデルでは,構成特性を持つ新しい変圧器を用いた準アテンション機構を設計する。提案手法は,双対親和性スコアを計算する際の類似性と相似性(負親和性)の直感に基づく。
論文参考訳（メタデータ） (2024-12-10T06:18:07Z)
Understanding Factual Recall in Transformers via Associative Memories [55.93756571457904]
浅層変圧器は、連想記憶の組み合わせを用いて、ほぼ最適な記憶能力を得ることができることを示す。本研究では, 1層に1つの自己注意を持つ変圧器にパラメータを付加することにより, ファクトリコールタスクにおいて100%の精度が得られることを示す。
論文参考訳（メタデータ） (2024-12-09T14:48:14Z)
MemoryFormer: Minimize Transformer Computation by Removing Fully-Connected Layers [43.39466934693055]
本稿では,新しい視点から計算複雑性(FLOP)を大幅に低減する,新しいトランスフォーマーアーキテクチャであるMemoryFormerを提案する。これは、完全連結層の線形射影を置き換えるために、特徴変換の代替手法を利用することで実現される。提案手法の有効性を示すため,様々なベンチマーク実験を行った。
論文参考訳（メタデータ） (2024-11-20T02:41:53Z)
ConvMixFormer- A Resource-efficient Convolution Mixer for Transformer-based Dynamic Hand Gesture Recognition [5.311735227179715]
動的ハンドジェスチャのための新しいConvMixFormerアーキテクチャを探索し,考案する。提案手法は,NVidia Dynamic Hand Gesture と Briareo のデータセットを用いて評価する。我々のモデルは、単一およびマルチモーダル入力に対して最先端の結果を得た。
論文参考訳（メタデータ） (2024-11-11T16:45:18Z)
MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文参考訳（メタデータ） (2024-05-25T03:24:32Z)
Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。 CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文参考訳（メタデータ） (2023-08-13T06:12:00Z)
RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文参考訳（メタデータ） (2023-05-22T13:57:41Z)
Efficient Language Modeling with Sparse all-MLP [53.81435968051093]
すべてのMLPは、言語モデリングにおいてTransformerと一致するが、下流タスクではまだ遅れている。特徴量と入力量の両方でMoE(Mix-of-Experts)を混合したスパースオールMLPを提案する。 6つの下流タスクにおいて、ゼロショットのインコンテキスト学習性能を評価し、トランスフォーマーベースのMoEや高密度トランスフォーマーを上回る結果を得た。
論文参考訳（メタデータ） (2022-03-14T04:32:19Z)
Fastformer: Additive Attention Can Be All You Need [51.79399904527525]
本稿では,加法的注意に基づく効率的なトランスフォーマーモデルであるFastformerを提案する。 Fastformerでは、トークン間のペアワイズインタラクションをモデル化する代わりに、まずグローバルコンテキストをモデル化するために追加アテンションメカニズムを使用します。このように、Fastformerは線形複雑性を伴う効果的なコンテキストモデリングを実現することができる。
論文参考訳（メタデータ） (2021-08-20T09:44:44Z)
Stable, Fast and Accurate: Kernelized Attention with Relative Positional Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文参考訳（メタデータ） (2021-06-23T17:51:26Z)
Subformer: Exploring Weight Sharing for Parameter Efficiency in Generative Transformers [16.88840622945725]
パラメータ効率の良いトランスフォーマーモデルであるSubformerを開発した。機械翻訳、抽象的要約、および言語モデリングに関する実験は、サブフォーマーが大幅に少ないパラメータを使用してもトランスフォーマーを上回ることができることを示しています。
論文参考訳（メタデータ） (2021-01-01T13:53:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。