論文の概要: An Attention Free Transformer
- arxiv url: http://arxiv.org/abs/2105.14103v1
- Date: Fri, 28 May 2021 20:45:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:54:09.667185
- Title: An Attention Free Transformer
- Title(参考訳): 注意自由変換器
- Authors: Shuangfei Zhai, Walter Talbott, Nitish Srivastava, Chen Huang, Hanlin
Goh, Ruixiang Zhang, Josh Susskind
- Abstract要約: 我々は,ドット製品の自己注意を不要にするトランスフォーマーの効率的な変種であるAttention Free Transformer (AFT)を導入する。
AFT層では、キーと値がまず学習された位置バイアスのセットと結合され、その結果がクエリに乗じられる。
AFTは全てのベンチマークで競争性能を示し、同時に優れた効率を提供する。
- 参考スコア(独自算出の注目度): 22.789683304721276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Attention Free Transformer (AFT), an efficient variant of
Transformers that eliminates the need for dot product self attention. In an AFT
layer, the key and value are first combined with a set of learned position
biases, the result of which is multiplied with the query in an element-wise
fashion. This new operation has a memory complexity linear w.r.t. both the
context size and the dimension of features, making it compatible to both large
input and model sizes. We also introduce AFT-local and AFT-conv, two model
variants that take advantage of the idea of locality and spatial weight sharing
while maintaining global connectivity. We conduct extensive experiments on two
autoregressive modeling tasks (CIFAR10 and Enwik8) as well as an image
recognition task (ImageNet-1K classification). We show that AFT demonstrates
competitive performance on all the benchmarks, while providing excellent
efficiency at the same time.
- Abstract(参考訳): 我々は,ドット製品の自己注意を不要にするトランスフォーマーの効率的な変種であるAttention Free Transformer (AFT)を導入する。
AFT層では、キーと値がまず学習された位置バイアスのセットと結合され、その結果を要素的な方法でクエリに乗じる。
この新しい操作はメモリの複雑さが線形な w.r.t を持つ。
コンテキストサイズと機能の次元の両方があり、大きな入力サイズとモデルサイズの両方と互換性がある。
AFT-local と AFT-conv も導入し,グローバルな接続性を維持しつつ,局所性と空間的重み共有の考え方を生かしたモデルである。
本研究では,2つの自己回帰モデルタスク(CIFAR10とEnwik8)と画像認識タスク(ImageNet-1K分類)について広範な実験を行った。
aftがすべてのベンチマークで競争性能を示すと同時に、優れた効率を提供することを示した。
関連論文リスト
- CTRL-F: Pairing Convolution with Transformer for Image Classification via Multi-Level Feature Cross-Attention and Representation Learning Fusion [0.0]
コンボリューションとトランスフォーマーを組み合わせた,軽量なハイブリッドネットワークを提案する。
畳み込み経路から取得した局所応答とMFCAモジュールから取得したグローバル応答とを融合する。
実験により、我々の変種は、大規模データや低データレギュレーションでスクラッチからトレーニングしたとしても、最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-07-09T08:47:13Z) - Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - Fourier Test-time Adaptation with Multi-level Consistency for Robust
Classification [10.291631977766672]
本稿では,Fourier Test-Time Adaptation (FTTA) と呼ばれる新しい手法を提案する。
FTTAは、予測の自己監督を行うために、ペア入力の信頼性の高い多レベル整合性測定を構築する。
異なる形態と器官を持つ3つの大きな分類データセットで広範囲に検証された。
論文 参考訳(メタデータ) (2023-06-05T02:29:38Z) - Lightweight Vision Transformer with Bidirectional Interaction [63.65115590184169]
本研究では,視覚変換器の局所的・グローバル的情報をモデル化するためのFASA機構を提案する。
FASAに基づいて、我々はFAT(Fully Adaptive Transformer)ファミリーという軽量なビジョンバックボーンのファミリーを開発した。
論文 参考訳(メタデータ) (2023-06-01T06:56:41Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Adaptive Split-Fusion Transformer [90.04885335911729]
本稿では,適応重みによる畳み込みと注目の分岐を異なる方法で扱うための適応分割変換器(ASF-former)を提案する。
ImageNet-1Kのような標準ベンチマークの実験では、我々のASFフォーマーはCNN、トランスフォーマー、ハイブリッドパイロットを精度で上回っている。
論文 参考訳(メタデータ) (2022-04-26T10:00:28Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Mixed Transformer U-Net For Medical Image Segmentation [14.046456257175237]
本稿では,相互親和性学習と親和性学習を同時に行うためのMTMを提案する。
MTMを用いて、正確な医用画像分割のためのMixed Transformer U-Net(MT-UNet)と呼ばれるU字型モデルを構築した。
論文 参考訳(メタデータ) (2021-11-08T09:03:46Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。