論文の概要: MOAT: Alternating Mobile Convolution and Attention Brings Strong Vision
Models
- arxiv url: http://arxiv.org/abs/2210.01820v1
- Date: Tue, 4 Oct 2022 18:00:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 14:03:08.226536
- Title: MOAT: Alternating Mobile Convolution and Attention Brings Strong Vision
Models
- Title(参考訳): MOAT: モバイルの進化と注意の代替が強力なビジョンモデルをもたらす
- Authors: Chenglin Yang, Siyuan Qiao, Qihang Yu, Xiaoding Yuan, Yukun Zhu, Alan
Yuille, Hartwig Adam, Liang-Chieh Chen
- Abstract要約: 本稿では、モビレ畳み込み(すなわち逆残差ブロック)とアテンションの上に構築されるニューラルネットワークのファミリーであるMOATについて述べる。
我々は、標準のTransformerブロックを移動式畳み込みブロックに置き換え、自己注意操作の前にさらに並べ替える。
概念的には単純なMOATネットワークは驚くほど有効であり、ImageNet-22KプリトレーニングでImageNet-1Kで89.1%の精度を実現している。
- 参考スコア(独自算出の注目度): 40.40784209977589
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents MOAT, a family of neural networks that build on top of
MObile convolution (i.e., inverted residual blocks) and ATtention. Unlike the
current works that stack separate mobile convolution and transformer blocks, we
effectively merge them into a MOAT block. Starting with a standard Transformer
block, we replace its multi-layer perceptron with a mobile convolution block,
and further reorder it before the self-attention operation. The mobile
convolution block not only enhances the network representation capacity, but
also produces better downsampled features. Our conceptually simple MOAT
networks are surprisingly effective, achieving 89.1% top-1 accuracy on
ImageNet-1K with ImageNet-22K pretraining. Additionally, MOAT can be seamlessly
applied to downstream tasks that require large resolution inputs by simply
converting the global attention to window attention. Thanks to the mobile
convolution that effectively exchanges local information between pixels (and
thus cross-windows), MOAT does not need the extra window-shifting mechanism. As
a result, on COCO object detection, MOAT achieves 59.2% box AP with 227M model
parameters (single-scale inference, and hard NMS), and on ADE20K semantic
segmentation, MOAT attains 57.6% mIoU with 496M model parameters (single-scale
inference). Finally, the tiny-MOAT family, obtained by simply reducing the
channel sizes, also surprisingly outperforms several mobile-specific
transformer-based models on ImageNet. We hope our simple yet effective MOAT
will inspire more seamless integration of convolution and self-attention. Code
is made publicly available.
- Abstract(参考訳): 本稿では、モビレ畳み込み(すなわち逆残差ブロック)とアテンションの上に構築されるニューラルネットワークのファミリーであるMOATについて述べる。
モバイルの畳み込みとトランスフォーマーブロックを分離する現在の作業とは異なり、効果的にMOATブロックにマージします。
標準のTransformerブロックから始め、マルチ層パーセプトロンを移動式畳み込みブロックに置き換え、自己注意操作の前にさらに並べ替える。
モバイル畳み込みブロックは、ネットワーク表現能力を向上させるだけでなく、より優れたダウンサンプリング機能を生み出す。
概念的には単純なMOATネットワークは驚くほど有効であり、ImageNet-22KプリトレーニングでImageNet-1Kで89.1%の精度を実現している。
さらに、MOATは、グローバルアテンションをウィンドウアテンションに変換するだけで、大規模な解像度入力を必要とするダウンストリームタスクにシームレスに適用できる。
ピクセル間のローカル情報(つまりクロスウィンドウ)を効果的に交換するモバイル畳み込みのおかげで、moatは追加のウィンドウシフト機構を必要としない。
その結果、COCOオブジェクト検出では、227Mモデルパラメータを持つ59.2%のボックスAP(シングルスケール推論とハードNMS)を獲得し、ADE20Kセマンティックセグメンテーションでは、496Mモデルパラメータを持つ57.6%のmIoUを達成した。
最後に、チャンネルサイズを単純に減らした小さなMOATファミリは、ImageNet上でモバイル固有のトランスフォーマーベースのモデルよりも驚くほど優れています。
シンプルで効果的なMOATが、畳み込みと自己意識のよりシームレスな統合を促すことを願っています。
コードは公開されている。
関連論文リスト
- Mobile V-MoEs: Scaling Down Vision Transformers via Sparse
Mixture-of-Experts [55.282613372420805]
我々は、資源制約された視覚アプリケーションにとってより魅力的な視覚変換器(ViT)をスケールダウンするために、スパースMOE(sparse MoEs)の使用について検討する。
我々は,個々のパッチではなく画像全体を専門家にルーティングする,シンプルでモバイルフレンドリーなMoE設計を提案する。
V-MoEs(V-MoEs)は高密度VTよりも性能と効率のトレードオフが優れていることを実証的に示す。
論文 参考訳(メタデータ) (2023-09-08T14:24:10Z) - Rethinking Mobile Block for Efficient Attention-based Models [60.0312591342016]
本稿では、パラメータ、FLOP、性能をトレードオフしながら、高密度予測のための現代的で効率的で軽量なモデルを開発することに焦点を当てる。
Inverted Residual Block (IRB) は軽量CNNの基盤として機能するが、注目に基づく研究ではその存在は認められていない。
我々はCNNベースのIRBをアテンションベースモデルに拡張し、軽量モデル設計のためのMMB(One-Residual Meta Mobile Block)を抽象化する。
論文 参考訳(メタデータ) (2023-01-03T15:11:41Z) - MoCoViT: Mobile Convolutional Vision Transformer [13.233314183471213]
モバイル・コンボリューショナル・ビジョン・トランスフォーマー(MoCoViT)を提案する。
MoCoViTは、モバイルデバイス向けに慎重に設計されており、非常に軽量で、2つの主要な修正によって実現されている。
総合的な実験により、提案したMoCoViTファミリーは、様々な視覚タスクにおいて、最先端のポータブルCNNやトランスフォーマーより優れていることが検証された。
論文 参考訳(メタデータ) (2022-05-25T10:21:57Z) - UniFormer: Unifying Convolution and Self-attention for Visual
Recognition [69.68907941116127]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、ここ数年で主要なフレームワークである。
コンボリューションと自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
我々のUniFormerはImageNet-1K分類において86.3トップ1の精度を実現している。
論文 参考訳(メタデータ) (2022-01-24T04:39:39Z) - A Simple Approach to Image Tilt Correction with Self-Attention MobileNet
for Smartphones [4.989480853499916]
本稿では,局所領域を処理する代わりに,画像特徴間の長距離依存性をモデル化できる自己注意型MobileNetを提案する。
また,画像傾き検出のための新しいトレーニングパイプラインを提案する。
我々は,モバイルネットV3モデルと比較して,モバイルデバイス上での画像傾斜角を検出する技術について述べる。
論文 参考訳(メタデータ) (2021-10-31T03:41:46Z) - CMT: Convolutional Neural Networks Meet Vision Transformers [68.10025999594883]
画像内の長距離依存関係をキャプチャできるため、画像認識タスクに視覚トランスフォーマーがうまく適用されている。
変圧器と既存の畳み込みニューラルネットワーク(CNN)の間には、パフォーマンスと計算コストの差がまだ残っている。
長距離依存関係をキャプチャするトランスフォーマーと、局所的な特徴をモデル化するCNNを利用して、新しいトランスフォーマーベースのハイブリッドネットワークを提案する。
特に、私たちのCMT-SはImageNetで83.5%、FLOPでは14倍、EfficientNetでは2倍の精度を実現しています。
論文 参考訳(メタデータ) (2021-07-13T17:47:19Z) - CSWin Transformer: A General Vision Transformer Backbone with
Cross-Shaped Windows [99.36226415086243]
汎用視覚タスクのための効率的なトランスフォーマーベースバックボーンCSWin Transformerを提案する。
トランスフォーマー設計における課題は、グローバルな自己アテンションが計算に非常に高価であるのに対して、ローカルな自己アテンションはトークン間の相互作用のフィールドを制限することが多いことである。
論文 参考訳(メタデータ) (2021-07-01T17:59:56Z) - ULSAM: Ultra-Lightweight Subspace Attention Module for Compact
Convolutional Neural Networks [4.143032261649983]
Ultra-Lightweight Subspace Attention Mechanism(ULSAM)は、エンドツーエンドのトレーニングが可能で、コンパクト畳み込みニューラルネットワーク(CNN)のプラグアンドプレイモジュールとしてデプロイできる。
FLOPとパラメータカウントの両方において$approx$13%と$approx$25%の削減を実現し、ImageNet-1Kおよびきめ細かい画像分類データセット上で、0.27%以上の精度と1%以上の精度で、MobileNet-V2のFLOPとパラメータカウントを削減した。
論文 参考訳(メタデータ) (2020-06-26T17:05:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。