論文の概要: Parameterization of Cross-Token Relations with Relative Positional
Encoding for Vision MLP
- arxiv url: http://arxiv.org/abs/2207.07284v1
- Date: Fri, 15 Jul 2022 04:18:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-18 13:19:17.175571
- Title: Parameterization of Cross-Token Relations with Relative Positional
Encoding for Vision MLP
- Title(参考訳): vision mlpにおける相対位置符号化と相互相関関係のパラメータ化
- Authors: Zhicai Wang, Yanbin Hao, Xingyu Gao, Hao Zhang, Shuo Wang, Tingting
Mu, Xiangnan He
- Abstract要約: 視覚多層パーセプトロン(MLP)はコンピュータビジョンタスクにおいて有望な性能を示す。
トークンミキシングレイヤを使用して、トランスフォーマーが使用するマルチヘッド自己保持機構とは対照的に、クロストークンインタラクションをキャプチャする。
トークン混合のためのクロストークン関係を効率的に符号化する新しい位置空間ゲーティングユニット(PoSGU)を提案する。
- 参考スコア(独自算出の注目度): 52.25478388220691
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision multi-layer perceptrons (MLPs) have shown promising performance in
computer vision tasks, and become the main competitor of CNNs and vision
Transformers. They use token-mixing layers to capture cross-token interactions,
as opposed to the multi-head self-attention mechanism used by Transformers.
However, the heavily parameterized token-mixing layers naturally lack
mechanisms to capture local information and multi-granular non-local relations,
thus their discriminative power is restrained. To tackle this issue, we propose
a new positional spacial gating unit (PoSGU). It exploits the attention
formulations used in the classical relative positional encoding (RPE), to
efficiently encode the cross-token relations for token mixing. It can
successfully reduce the current quadratic parameter complexity $O(N^2)$ of
vision MLPs to $O(N)$ and $O(1)$. We experiment with two RPE mechanisms, and
further propose a group-wise extension to improve their expressive power with
the accomplishment of multi-granular contexts. These then serve as the key
building blocks of a new type of vision MLP, referred to as PosMLP. We evaluate
the effectiveness of the proposed approach by conducting thorough experiments,
demonstrating an improved or comparable performance with reduced parameter
complexity. For instance, for a model trained on ImageNet1K, we achieve a
performance improvement from 72.14\% to 74.02\% and a learnable parameter
reduction from $19.4M$ to $18.2M$. Code could be found at
\href{https://github.com/Zhicaiwww/PosMLP}{https://github.com/Zhicaiwww/PosMLP}.
- Abstract(参考訳): ビジョン多層パーセプトロン(MLP)はコンピュータビジョンタスクにおいて有望な性能を示し、CNNやビジョントランスフォーマーの主な競合相手となった。
彼らは、トランスフォーマーが使用するマルチヘッドセルフアテンション機構とは対照的に、トークン混合層を使用してクロストケンインタラクションをキャプチャする。
しかし、高パラメータ化されたトークン混合層は、局所情報と多粒性非局所関係を捉えるメカニズムを欠いているため、識別力は抑制される。
この問題に対処するため,新しい位置空間ゲーティングユニット(PoSGU)を提案する。
古典的相対的位置符号化(RPE)で使われる注意の定式化を利用して、トークンミキシングのためのクロストークン関係を効率的に符号化する。
現在の二次パラメータの複雑性$O(N^2)$ビジョン MLP を$O(N)$と$O(1)$に縮めることに成功した。
2つのrpe機構を実験し,多面的文脈の達成により,表現力を向上させるためのグループ的拡張を提案する。
これらはPosMLPと呼ばれる新しいタイプの視覚MLPの鍵となる構成要素として機能する。
提案手法の有効性を徹底的な実験により評価し,パラメータの複雑性を低減した改良あるいは同等の性能を示す。
例えば、ImageNet1Kでトレーニングされたモデルでは、72.14\%から74.02\%に改善され、学習可能なパラメータは19.4M$から18.2M$に削減された。
コードは \href{https://github.com/Zhicaiwww/PosMLP}{https://github.com/Zhicaiwww/PosMLP} にある。
関連論文リスト
- PosMLP-Video: Spatial and Temporal Relative Position Encoding for Efficient Video Recognition [37.62114379192619]
PosMLP-Videoは、ビデオ認識のための軽量だが強力なバックボーンのようなモデルである。
ImageNet1Kで事前トレーニングされたPosMLP-Videoは59.0%/70.3%のトップ-1精度を達成した。
論文 参考訳(メタデータ) (2024-07-03T09:07:14Z) - Token Fusion: Bridging the Gap between Token Pruning and Token Merging [71.84591084401458]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの強力なバックボーンとして登場し、多くの伝統的なCNNを上回っている。
計算オーバーヘッドは、主に自己アテンション機構によるもので、リソース制約のあるエッジデバイスへのデプロイが困難になる。
トークンプルーニングとトークンマージの両方のメリットを両立させる手法であるToken Fusion(ToFu)を紹介する。
論文 参考訳(メタデータ) (2023-12-02T04:29:19Z) - SCHEME: Scalable Channel Mixer for Vision Transformers [52.605868919281086]
ビジョントランスフォーマーは多くの視覚タスクにおいて印象的なパフォーマンスを達成した。
チャネルミキサーや機能ミキシングブロック(FFNか)の研究は、はるかに少ない。
密度の高い接続は、より大きな膨張比をサポートする対角線ブロック構造に置き換えることができることを示す。
論文 参考訳(メタデータ) (2023-12-01T08:22:34Z) - Strip-MLP: Efficient Token Interaction for Vision MLP [31.02197585697145]
textbfStrip-MLPを導入し,トークン間相互作用を3つの方法で強化する。
Strip-MLPは、小さなデータセット上での空間モデルの性能を大幅に改善する。
CIFAR-100ではCaltech-101では+2.44%、CIFAR-100では+2.16%である。
論文 参考訳(メタデータ) (2023-07-21T09:40:42Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - UNeXt: MLP-based Rapid Medical Image Segmentation Network [80.16644725886968]
UNetとその最新の拡張であるTransUNetは、ここ数年で主要な医療画像分割手法である。
画像分割のための畳み込み多層パーセプトロンネットワークUNeXtを提案する。
パラメータ数を72倍に減らし,計算複雑性を68倍に減らし,推論速度を10倍に改善し,セグメンテーション性能も向上した。
論文 参考訳(メタデータ) (2022-03-09T18:58:22Z) - Mixing and Shifting: Exploiting Global and Local Dependencies in Vision
MLPs [84.3235981545673]
Token-mixing Multi-layer Perceptron (MLP) モデルはコンピュータビジョンタスクにおいて競合性能を示す。
本研究では,空間シフトの量に関して,局所受容場のサイズを増大させるMix-Shift-MLPを提案する。
MS-MLPは、複数のビジョンベンチマークで競合性能を達成する。
論文 参考訳(メタデータ) (2022-02-14T06:53:48Z) - S$^2$-MLPv2: Improved Spatial-Shift MLP Architecture for Vision [34.47616917228978]
帰納バイアスの少ないファウスベースの視覚アーキテクチャは、画像認識における競合性能を達成する。
本稿では、S$2$-MLPビジョンバックボーンを改善する。
われわれの中規模モデルであるS$2$-MLPv2-Mediumは、ImageNet-1Kベンチマークで8,3.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-08-02T17:59:02Z) - Rethinking Token-Mixing MLP for MLP-based Vision Backbone [34.47616917228978]
本稿では,Circulant Channel-Specific(CCS)トークン混合ベンチマークと呼ばれる,空間不変かつチャネル固有な改良された構造を提案する。
パラメータは少ないが、ImageNet1Kでは高い分類精度が得られる。
論文 参考訳(メタデータ) (2021-06-28T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。