論文の概要: Focal Modulation Networks
- arxiv url: http://arxiv.org/abs/2203.11926v1
- Date: Tue, 22 Mar 2022 17:54:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-23 12:43:25.538903
- Title: Focal Modulation Networks
- Title(参考訳): 焦点変調ネットワーク
- Authors: Jianwei Yang, Chunyuan Li, Jianfeng Gao
- Abstract要約: 自己注意(SA)は完全に焦点変調ネットワーク(FocalNet)に置き換えられる
ImageNet-1Kの精度は82.3%、83.9%である。
FocalNetsは下流のタスクに転送する際、顕著な優位性を示す。
- 参考スコア(独自算出の注目度): 105.93086472906765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose focal modulation network (FocalNet in short), where
self-attention (SA) is completely replaced by a focal modulation module that is
more effective and efficient for modeling token interactions. Focal modulation
comprises three components: $(i)$ hierarchical contextualization, implemented
using a stack of depth-wise convolutional layers, to encode visual contexts
from short to long ranges at different granularity levels, $(ii)$ gated
aggregation to selectively aggregate context features for each visual token
(query) based on its content, and $(iii)$ modulation or element-wise affine
transformation to fuse the aggregated features into the query vector. Extensive
experiments show that FocalNets outperform the state-of-the-art SA counterparts
(e.g., Swin Transformers) with similar time and memory cost on the tasks of
image classification, object detection, and semantic segmentation.
Specifically, our FocalNets with tiny and base sizes achieve 82.3% and 83.9%
top-1 accuracy on ImageNet-1K. After pretrained on ImageNet-22K, it attains
86.5% and 87.3% top-1 accuracy when finetuned with resolution 224$\times$224
and 384$\times$384, respectively. FocalNets exhibit remarkable superiority when
transferred to downstream tasks. For object detection with Mask R-CNN, our
FocalNet base trained with 1$\times$ already surpasses Swin trained with
3$\times$ schedule (49.0 v.s. 48.5). For semantic segmentation with UperNet,
FocalNet base evaluated at single-scale outperforms Swin evaluated at
multi-scale (50.5 v.s. 49.7). These results render focal modulation a favorable
alternative to SA for effective and efficient visual modeling in real-world
applications. Code is available at https://github.com/microsoft/FocalNet.
- Abstract(参考訳): 本研究では,トークンの相互作用をモデル化する上で,より効率的かつ効率的に自己アテンション(SA)を焦点変調モジュールに置き換えた焦点変調ネットワーク(FocalNet)を提案する。
Focal modulationは3つのコンポーネントから構成される。
(i)$階層的コンテキスト化(階層的コンテキスト化) 奥行き方向の畳み込み層を使って実装され、異なる粒度レベルで短い範囲から長い範囲の視覚的コンテキストをエンコードする。
(ii)$ gateアグリゲーションは、そのコンテンツに基づいて、各ビジュアルトークン(クエリ)のコンテキスト特徴を選択的に集約する。
(iii)$ modulation または element-wise affine transformation は、集約された機能をクエリベクトルに融合する。
大規模な実験により、FocalNetsは、画像分類、オブジェクト検出、セマンティックセグメンテーションのタスクにおいて、同様の時間とメモリコストで最先端のSA(例えばSwin Transformers)よりも優れていることが示された。
具体的には、小さくてベースサイズのFocalNetsは、ImageNet-1Kで82.3%、83.9%の精度を実現している。
imagenet-22kで事前トレーニングした後、解像度224$\times$224と384$\times$384で微調整すると、86.5%と87.3%のtop-1精度が得られる。
FocalNetsは下流のタスクに転送する際、顕著な優位性を示す。
Mask R-CNNを使ったオブジェクト検出では、1$\times$でトレーニングされたFocalNetベースが3$\times$スケジュール(49.0 v.s. 48.5)でトレーニングされたSwinを超えています。
upernet を用いたセマンティクスセグメンテーションでは、focalnet ベースがマルチスケール (50.5 v.s. 49.7) で評価されるシングルスケールのオーバーフォームで評価される。
これらの結果は、実世界のアプリケーションにおいて、効果的かつ効率的な視覚モデリングのためのSAの代替として焦点変調が好ましいものである。
コードはhttps://github.com/microsoft/FocalNetで入手できる。
関連論文リスト
- DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition [62.95223898214866]
我々は,視覚変換器の有効性を探究し,参加する受容領域の計算複雑性とサイズとのトレードオフを追求する。
ピラミッドアーキテクチャを用いて,MSDAブロックを低レベルに積み重ねたマルチスケールDilated Transformer (DilateFormer) と,高レベルにグローバルなマルチヘッド自己保持ブロックを構築する。
実験の結果,DilateFormerは様々な視覚タスクで最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-02-03T14:59:31Z) - MogaNet: Multi-order Gated Aggregation Network [64.16774341908365]
我々は,識別的視覚的表現学習のために,MogaNetと呼ばれる現代ConvNetの新たなファミリーを提案する。
MogaNetは概念的に単純だが効果的な畳み込みをカプセル化し、集約をコンパクトモジュールに集約する。
MogaNetは、ImageNetの最先端のViTやConvNetと比較して、優れたスケーラビリティ、パラメータの大幅な効率、競争性能を示している。
論文 参考訳(メタデータ) (2022-11-07T04:31:17Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - CSWin Transformer: A General Vision Transformer Backbone with
Cross-Shaped Windows [99.36226415086243]
汎用視覚タスクのための効率的なトランスフォーマーベースバックボーンCSWin Transformerを提案する。
トランスフォーマー設計における課題は、グローバルな自己アテンションが計算に非常に高価であるのに対して、ローカルな自己アテンションはトークン間の相互作用のフィールドを制限することが多いことである。
論文 参考訳(メタデータ) (2021-07-01T17:59:56Z) - SA-Net: Shuffle Attention for Deep Convolutional Neural Networks [0.0]
この問題に対処するために,効率的なShuffle Attention (SA) モジュールを提案する。
例えば、バックボーンのResNet50に対するSAのパラメータと計算は、それぞれ300対25.56Mと2.76e-3 GFLOPs対4.12 GFLOPである。
論文 参考訳(メタデータ) (2021-01-30T15:23:17Z) - Bottleneck Transformers for Visual Recognition [97.16013761605254]
視覚タスクに自己注意を組み込んだ強力なバックボーンアーキテクチャであるBoTNetを提案する。
我々は、ImageNetベンチマークにおいて84.7%のトップ1の精度で高いパフォーマンスを達成するモデルを提案する。
私たちのシンプルで効果的なアプローチが、将来のビジョンのための自己注意モデル研究の強力なベースラインになることを期待しています。
論文 参考訳(メタデータ) (2021-01-27T18:55:27Z) - MUXConv: Information Multiplexing in Convolutional Neural Networks [25.284420772533572]
MUXConvは、ネットワーク内のチャンネルと空間情報を段階的に多重化することで、情報の流れを増大させるように設計されている。
ImageNetでは、MUXNetsと呼ばれる結果のモデルが、MobileNetV3のパフォーマンス(75.3%のトップ-1精度)と乗算演算(218M)に一致している。
MUXNetは、転送学習やオブジェクト検出に適応する際にもよく機能する。
論文 参考訳(メタデータ) (2020-03-31T00:09:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。