論文の概要: Transformer with a Mixture of Gaussian Keys
- arxiv url: http://arxiv.org/abs/2110.08678v1
- Date: Sat, 16 Oct 2021 23:43:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-21 09:32:40.141675
- Title: Transformer with a Mixture of Gaussian Keys
- Title(参考訳): ガウス鍵を混合した変圧器
- Authors: Tam Nguyen, Tan M. Nguyen, Dung Le, Khuong Nguyen, Anh Tran, Richard
G. Baraniuk, Nhat Ho and Stanley J. Osher
- Abstract要約: マルチヘッドアテンションは最先端のトランスフォーマーの背後にある原動力である。
Transformer-MGKは、トランスフォーマーの冗長なヘッドを、各ヘッドにキーの混合で置き換える。
従来のトランスフォーマーと比較して、Transformer-MGKはトレーニングと推論を加速し、パラメータが少なく、計算するFLOPも少ない。
- 参考スコア(独自算出の注目度): 31.91701434633319
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-head attention is a driving force behind state-of-the-art transformers
which achieve remarkable performance across a variety of natural language
processing (NLP) and computer vision tasks. It has been observed that for many
applications, those attention heads learn redundant embedding, and most of them
can be removed without degrading the performance of the model. Inspired by this
observation, we propose Transformer with a Mixture of Gaussian Keys
(Transformer-MGK), a novel transformer architecture that replaces redundant
heads in transformers with a mixture of keys at each head. These mixtures of
keys follow a Gaussian mixture model and allow each attention head to focus on
different parts of the input sequence efficiently. Compared to its conventional
transformer counterpart, Transformer-MGK accelerates training and inference,
has fewer parameters, and requires less FLOPs to compute while achieving
comparable or better accuracy across tasks. Transformer-MGK can also be easily
extended to use with linear attentions. We empirically demonstrate the
advantage of Transformer-MGK in a range of practical applications including
language modeling and tasks that involve very long sequences. On the
Wikitext-103 and Long Range Arena benchmark, Transformer-MGKs with 4 heads
attain comparable or better performance to the baseline transformers with 8
heads.
- Abstract(参考訳): マルチヘッドアテンション(Multi-head attention)は、自然言語処理(NLP)やコンピュータビジョンタスクにまたがる優れたパフォーマンスを実現する最先端のトランスフォーマーの原動力である。
多くのアプリケーションにおいて、これらのアテンションヘッドは冗長な埋め込みを学習し、そのほとんどはモデルの性能を劣化させることなく取り除くことができる。
そこで,本研究では,ガウス鍵(transformer-mgk)とガウス鍵(transformer-mgk)を混合した変圧器を提案する。
これらの混合鍵はガウス混合モデルに従い、各注意ヘッドは入力シーケンスの異なる部分に集中することができる。
従来のトランスフォーマーに比べて、transformer-mgkはトレーニングと推論を高速化し、パラメータを少なくし、計算にフラップを少なくし、タスク間で同等あるいは優れた精度を実現している。
Transformer-MGKは、線形注意で簡単に拡張できる。
我々は,Transformer-MGKの利点を,非常に長いシーケンスを含む言語モデリングやタスクを含む様々な実践的応用で実証的に実証した。
wikitext-103とlong range arenaベンチマークでは、4つのヘッドを持つtransformer-mgkが8つのヘッドを持つベースライントランスフォーマーと同等かそれ以上の性能を達成した。
関連論文リスト
- Shrinking the Giant : Quasi-Weightless Transformers for Low Energy Inference [0.30104001512119216]
高速でエネルギー効率のよい推論モデルの構築は、様々なトランスフォーマーベースのアプリケーションを実現するために不可欠である。
拡張有限差分法によりLUTネットワークを直接学習する手法を構築した。
これにより、トランスベースのモデルに対する計算的でエネルギー効率の良い推論ソリューションが実現される。
論文 参考訳(メタデータ) (2024-11-04T05:38:56Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - Do Efficient Transformers Really Save Computation? [32.919672616480135]
我々は、効率的な変換器、特にスパース変換器と線形変換器の機能と限界に焦点を当てる。
以上の結果から,これらのモデルは一般のDPタスクを解くのに十分な表現力を持っているが,期待とは裏腹に,問題のサイズに合わせてスケールするモデルサイズが必要であることが示唆された。
我々は,これらのモデルが標準のTransformerよりも効率的であるようなDP問題のクラスを同定する。
論文 参考訳(メタデータ) (2024-02-21T17:00:56Z) - ClipFormer: Key-Value Clipping of Transformers on Memristive Crossbars
for Write Noise Mitigation [6.853523674099236]
非揮発性メモリ(NVM)に基づくインメモリコンピューティング(IMC)クロスバーは、トランスフォーマーを高速化するための有望なソリューションとして登場した。
書込みノイズを動的に発生させることにより、事前訓練された視覚変換器(ViT)がクロスバーに対して脆弱であることがわかった。
本稿では,事前学習したViTモデルの非理想的精度を高めるために,新しい旋律的クロスバープラットフォームを提案する。
論文 参考訳(メタデータ) (2024-02-04T19:04:37Z) - Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z) - HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling [126.89573619301953]
我々はHiViT(Hierarchical ViT)という階層型視覚変換器の新しい設計を提案する。
HiViTはMIMで高い効率と優れたパフォーマンスを享受する。
ImageNet-1K上でMAEを実行する場合、HiViT-BはViT-Bよりも0.6%精度が向上し、Swin-Bよりも1.9$times$スピードアップしたと報告している。
論文 参考訳(メタデータ) (2022-05-30T09:34:44Z) - Glance-and-Gaze Vision Transformer [13.77016463781053]
我々は Glance-and-Gaze Transformer (GG-Transformer) という新しい視覚変換器を提案する。
自然の場面で物体を認識するとき、人間のGlance and Gazeの行動によって動機付けられている。
提案手法は,従来の最先端変圧器よりも一貫した性能を実現することを実証的に実証する。
論文 参考訳(メタデータ) (2021-06-04T06:13:47Z) - Scalable Transformers for Neural Machine Translation [86.4530299266897]
トランスフォーマーは、そのキャパシティとシーケンス生成の並列トレーニングのため、ニューラルネットワーク翻訳(NMT)で広く採用されている。
本稿では,異なるスケールのサブトランスフォーマーを自然に含み,パラメータを共有できる,スケーラブルなトランスフォーマーを提案する。
スケーラブルトランスフォーマーのトレーニングの難しさに対処する3段階のトレーニングスキームが提案されている。
論文 参考訳(メタデータ) (2021-06-04T04:04:10Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z) - DA-Transformer: Distance-aware Transformer [87.20061062572391]
DA-Transformerは、実際の距離を利用することができる距離対応トランスである。
本稿では,実距離を利用した距離認識変換器であるDA-Transformerを提案する。
論文 参考訳(メタデータ) (2020-10-14T10:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。