論文の概要: OmniNet: Omnidirectional Representations from Transformers
- arxiv url: http://arxiv.org/abs/2103.01075v1
- Date: Mon, 1 Mar 2021 15:31:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 17:35:40.052262
- Title: OmniNet: Omnidirectional Representations from Transformers
- Title(参考訳): OmniNet: トランスフォーマーからの一方向表現
- Authors: Yi Tay, Mostafa Dehghani, Vamsi Aribandi, Jai Gupta, Philip Pham, Zhen
Qin, Dara Bahri, Da-Cheng Juan, Donald Metzler
- Abstract要約: 本稿ではトランスフォーマー(OmniNet)からのOmnidirect Representationsを提案する。
OmniNetでは、厳密に水平な受容フィールドを維持する代わりに、各トークンはネットワーク全体のすべてのトークンに参加することができる。
自動回帰言語モデリング、機械翻訳、長距離アリーナ(LRA)、画像認識に関する実験が行われている。
- 参考スコア(独自算出の注目度): 49.23834374054286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes Omnidirectional Representations from Transformers
(OmniNet). In OmniNet, instead of maintaining a strictly horizontal receptive
field, each token is allowed to attend to all tokens in the entire network.
This process can also be interpreted as a form of extreme or intensive
attention mechanism that has the receptive field of the entire width and depth
of the network. To this end, the omnidirectional attention is learned via a
meta-learner, which is essentially another self-attention based model. In order
to mitigate the computationally expensive costs of full receptive field
attention, we leverage efficient self-attention models such as kernel-based
(Choromanski et al.), low-rank attention (Wang et al.) and/or Big Bird (Zaheer
et al.) as the meta-learner. Extensive experiments are conducted on
autoregressive language modeling (LM1B, C4), Machine Translation, Long Range
Arena (LRA), and Image Recognition. The experiments show that OmniNet achieves
considerable improvements across these tasks, including achieving
state-of-the-art performance on LM1B, WMT'14 En-De/En-Fr, and Long Range Arena.
Moreover, using omnidirectional representation in Vision Transformers leads to
significant improvements on image recognition tasks on both few-shot learning
and fine-tuning setups.
- Abstract(参考訳): 本稿では,トランスフォーマー(OmniNet)からのOmnidirectional Representationsを提案する。
OmniNetでは、厳密に水平な受容フィールドを維持する代わりに、各トークンはネットワーク全体のすべてのトークンに参加することができる。
この過程は、ネットワークの幅と深さ全体の受容場を持つ極端または集中的な注意機構の形式として解釈することもできる。
この目的のために、全方向の注意は、本質的に別の自己注意ベースのモデルであるメタランナーを介して学習される。
フルレセプティブ・フィールド・アテンションの計算コストを軽減するために,カーネル・ベース (choromanski et al) のような効率的な自己アテンションモデルを活用する。
)、低位注意(Wang et al.)。
and/or Big Bird (Zaheer et al.)
メタリアナーとして。
自動回帰言語モデリング(LM1B, C4)、機械翻訳、長距離アリーナ(LRA)、画像認識に関する広範な実験が行われている。
実験の結果,OmniNetはLM1B,WMT'14 En-De/En-Fr,Long Range Arenaなどの最先端性能を達成した。
さらに、Vision Transformersで全方向表現を使用することで、数ショット学習と微調整の両方で画像認識タスクが大幅に改善されます。
関連論文リスト
- You Only Need Less Attention at Each Stage in Vision Transformers [19.660385306028047]
ViT(Vision Transformer)は、自己認識モジュールを通じて画像のグローバルな情報をキャプチャする。
本稿では,各段階の注意操作のみを演算するLose-Attention Vision Transformer (LaViT)を提案する。
我々のアーキテクチャは、分類、検出、セグメンテーションを含む様々な視覚タスクにおいて、例外的な性能を示す。
論文 参考訳(メタデータ) (2024-06-01T12:49:16Z) - DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。
DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-09-04T08:26:47Z) - Lightweight Vision Transformer with Bidirectional Interaction [63.65115590184169]
本研究では,視覚変換器の局所的・グローバル的情報をモデル化するためのFASA機構を提案する。
FASAに基づいて、我々はFAT(Fully Adaptive Transformer)ファミリーという軽量なビジョンバックボーンのファミリーを開発した。
論文 参考訳(メタデータ) (2023-06-01T06:56:41Z) - MAFormer: A Transformer Network with Multi-scale Attention Fusion for
Visual Recognition [45.68567088645708]
マルチスケールアテンションフュージョンを変換器(MAFormer)に導入する。
MAFormerは、視覚認識のためのデュアルストリームフレームワークにおいて、局所的な集約とグローバルな特徴抽出について検討する。
私たちのMAFormerは、一般的な視覚タスクで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-08-31T06:29:27Z) - Understanding The Robustness in Vision Transformers [140.1090560977082]
自己注意は、改善された中レベルの表現を通して堅牢性を促進する。
我々は、この能力を強化するために、フルアテンショナルネットワーク(FAN)のファミリーを提案する。
我々のモデルは、76.8Mパラメータを持つImageNet-1kおよびImageNet-C上で、最先端の87.1%の精度と35.8%のmCEを達成する。
論文 参考訳(メタデータ) (2022-04-26T17:16:32Z) - Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。
注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。
SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文 参考訳(メタデータ) (2021-11-30T08:08:47Z) - RAMS-Trans: Recurrent Attention Multi-scale Transformer forFine-grained
Image Recognition [26.090419694326823]
地域注意の局所化と増幅は重要な要素であり、畳み込みニューラルネットワーク(CNN)ベースのアプローチによって多くの研究がなされている。
本稿では,変圧器の自己注意を用いて識別領域の注意を学習する,繰り返し注意型マルチスケール変圧器(RAMS-Trans)を提案する。
論文 参考訳(メタデータ) (2021-07-17T06:22:20Z) - Vision Transformers with Hierarchical Attention [61.16912607330001]
本稿では、視覚変換器におけるMHSA(Multi-Head Self-Attention)に関連する計算・空間の複雑さに対処する。
階層型MHSA(Hierarchical MHSA, H-MHSA)を提案する。
我々は階層型アテンションベースのトランスフォーマーネットワーク,すなわちHAT-Netのファミリを構築する。
論文 参考訳(メタデータ) (2021-06-06T17:01:13Z) - KVT: k-NN Attention for Boosting Vision Transformers [44.189475770152185]
我々は、視力変換器の強化を目的とした、k-NNアテンションと呼ばれるスパースアテンション方式を提案する。
提案したk-NNアテンションは、畳み込み操作を導入することなくCNNの局所バイアスを自然に継承する。
理論的にも経験的にも、$k$-NNの注意力は入力トークンからのノイズの蒸留やトレーニングの高速化に有効である。
論文 参考訳(メタデータ) (2021-05-28T06:49:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。