論文の概要: SCHEME: Scalable Channer Mixer for Vision Transformers
- arxiv url: http://arxiv.org/abs/2312.00412v1
- Date: Fri, 1 Dec 2023 08:22:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 15:17:35.314299
- Title: SCHEME: Scalable Channer Mixer for Vision Transformers
- Title(参考訳): scheme: 視覚トランスフォーマーのためのスケーラブルなチャンナーミキサー
- Authors: Deepak Sridhar, Yunsheng Li, Nuno Vasconcelos
- Abstract要約: 視覚変換器は多くの視覚タスクにおける印象的な性能のために大きな注目を集めている。
特徴混合が高密度接続に取って代わり,これをブロック対角構造で確認できるかどうかを検討した。
画像分類、オブジェクト検出、セマンティックセグメンテーション(セグメンテーション)の実験は、ViTのバックボーンが異なるが、確実に精度が向上することを示した。
- 参考スコア(独自算出の注目度): 59.12372477493569
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision Transformers have received significant attention due to their
impressive performance in many vision tasks. While the token mixer or attention
block has been studied in great detail, the channel mixer or feature mixing
block (FFN or MLP) has not been explored in depth albeit it accounts for a bulk
of the parameters and computation in a model. In this work, we study whether
sparse feature mixing can replace the dense connections and confirm this with a
block diagonal MLP structure that improves the accuracy by supporting larger
expansion ratios. To improve the feature clusters formed by this structure and
thereby further improve the accuracy, a lightweight, parameter-free, channel
covariance attention (CCA) mechanism is introduced as a parallel branch during
training. This design of CCA enables gradual feature mixing across channel
groups during training whose contribution decays to zero as the training
progresses to convergence. This allows the CCA block to be discarded during
inference, thus enabling enhanced performance with no additional computational
cost. The resulting $\textit{Scalable CHannEl MixEr}$ (SCHEME) can be plugged
into any ViT architecture to obtain a gamut of models with different trade-offs
between complexity and performance by controlling the block diagonal structure
size in the MLP. This is shown by the introduction of a new family of
SCHEMEformer models. Experiments on image classification, object detection, and
semantic segmentation, with different ViT backbones, consistently demonstrate
substantial accuracy gains over existing designs, especially under lower FLOPs
regimes. For example, the SCHEMEformer establishes a new SOTA of 79.7% accuracy
for ViTs using pure attention mixers on ImageNet-1K at 1.77G FLOPs.
- Abstract(参考訳): 視覚トランスフォーマーは、多くの視覚タスクで印象的な性能のため、大きな注目を集めている。
トークンミキサーや注意ブロックは、非常に詳細に研究されているが、チャネルミキサーや特徴混合ブロック(ffnまたはmlp)は、モデル内のパラメータと計算の大部分を担っているにもかかわらず、深くは探索されていない。
本研究では,より広い拡張率をサポートすることで精度を向上させるブロック対角形mlp構造を用いて,分散特徴混合が密接な接続を置き換えることができるか検討する。
この構造により形成された特徴クラスタを改善し、精度をさらに向上するため、トレーニング中に並列ブランチとして軽量でパラメータフリーなチャネル共分散アテンション(CCA)機構を導入する。
このCCAの設計は、訓練が収束するにつれて寄与がゼロになる訓練中、チャネル群間の段階的な特徴混合を可能にする。
これにより、推論中にCAAブロックを破棄することができ、計算コストを増大させることなく性能を向上させることができる。
結果として生じる$\textit{Scalable CHannEl MixEr}$ (SCHEME) は任意の ViT アーキテクチャにプラグインすることができ、MLP のブロック対角構造サイズを制御することで、複雑性と性能のトレードオフが異なるモデルのガムが得られる。
これはSCHEMEformerモデルの新しいファミリーの導入によって示される。
vitバックボーンの異なる画像分類、オブジェクト検出、セマンティックセグメンテーションの実験は、既存の設計、特に低いフロップス領域において、一貫して実質的な精度向上を示している。
例えば、SCHEMEformer は ImageNet-1K の1.77G FLOP で純アテンションミキサーを用いて ViT の 79.7% の精度の SOTA を確立する。
関連論文リスト
- NiNformer: A Network in Network Transformer with Token Mixing Generated
Gating Function [1.6317061277457001]
アテンションメカニズムはコンピュータビジョンでビジョントランスフォーマーViTとして利用され、その用途はビジョン領域の多くのタスクに拡張されている。
本稿では、通常のアテンション層をネットワーク内のネットワーク構造に置き換えることで、計算負担を軽減するための標準ViTブロックの代替として、新しい計算ブロックを提案する。
論文 参考訳(メタデータ) (2024-03-04T19:08:20Z) - Plug n' Play: Channel Shuffle Module for Enhancing Tiny Vision
Transformers [15.108494142240993]
視覚変換器(ViT)は様々なコンピュータビジョンタスクにおいて顕著な性能を示した。
高い計算複雑性は、ViTsのメモリとコンピューティングリソースの制限のあるデバイスへの適用性を妨げている。
小型VTを改良するための新しいチャネルシャッフルモジュールを提案する。
論文 参考訳(メタデータ) (2023-10-09T11:56:35Z) - TSMixer: Lightweight MLP-Mixer Model for Multivariate Time Series
Forecasting [13.410217680999459]
トランスフォーマーは、時系列の相互作用をキャプチャする能力のために時系列予測で人気を博している。
高メモリとコンピューティングの要求は、長期予測にとって重要なボトルネックとなる。
マルチ層パーセプトロン(MLP)モジュールからなる軽量ニューラルネットワークTSMixerを提案する。
論文 参考訳(メタデータ) (2023-06-14T06:26:23Z) - Fcaformer: Forward Cross Attention in Hybrid Vision Transformer [29.09883780571206]
ハイブリッド・ビジョン・トランス(FcaFormer)のための前方クロスアテンションを提案する。
私たちのFcaFormerは1630万のパラメータと約36億のMACでImagenetの83.1%のトップ-1の精度を実現しています。
これにより、ほぼ半分のパラメータといくつかの計算コストを節約し、蒸留されたEfficientFormerよりも0.7%高い精度を達成できる。
論文 参考訳(メタデータ) (2022-11-14T08:43:44Z) - Bridging the Gap Between Vision Transformers and Convolutional Neural
Networks on Small Datasets [91.25055890980084]
小さなデータセットでスクラッチからトレーニングする場合、ビジョントランスフォーマー(ViT)と畳み込みニューラルネットワーク(CNN)の間には、依然として極端なパフォーマンスギャップがある。
本稿では2つの帰納バイアスを緩和する解として動的ハイブリッドビジョン変換器(DHVT)を提案する。
我々のDHVTは、CIFAR-100が85.68%、22.8Mパラメータが82.3%、ImageNet-1Kが24.0Mパラメータが82.3%の軽量モデルで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-12T06:54:39Z) - Parameterization of Cross-Token Relations with Relative Positional
Encoding for Vision MLP [52.25478388220691]
視覚多層パーセプトロン(MLP)はコンピュータビジョンタスクにおいて有望な性能を示す。
トークンミキシングレイヤを使用して、トランスフォーマーが使用するマルチヘッド自己保持機構とは対照的に、クロストークンインタラクションをキャプチャする。
トークン混合のためのクロストークン関係を効率的に符号化する新しい位置空間ゲーティングユニット(PoSGU)を提案する。
論文 参考訳(メタデータ) (2022-07-15T04:18:06Z) - Adaptive Split-Fusion Transformer [90.04885335911729]
本稿では,適応重みによる畳み込みと注目の分岐を異なる方法で扱うための適応分割変換器(ASF-former)を提案する。
ImageNet-1Kのような標準ベンチマークの実験では、我々のASFフォーマーはCNN、トランスフォーマー、ハイブリッドパイロットを精度で上回っている。
論文 参考訳(メタデータ) (2022-04-26T10:00:28Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Adaptive Fourier Neural Operators: Efficient Token Mixers for
Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。
AFNOは、演算子学習の原則的基礎に基づいている。
65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文 参考訳(メタデータ) (2021-11-24T05:44:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。