論文の概要: MixFormer: Mixing Features across Windows and Dimensions
- arxiv url: http://arxiv.org/abs/2204.02557v1
- Date: Wed, 6 Apr 2022 03:13:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 14:10:10.066468
- Title: MixFormer: Mixing Features across Windows and Dimensions
- Title(参考訳): mixformer: windowsとディメンションにまたがる機能を混ぜる
- Authors: Qiang Chen, Qiman Wu, Jian Wang, Qinghao Hu, Tao Hu, Errui Ding, Jian
Cheng, Jingdong Wang
- Abstract要約: ローカルウインドウの自己注意は視覚タスクにおいて顕著に機能するが、限定的な受容野と弱いモデリング能力の問題に悩まされている。
これは主に、オーバーラップされていないウィンドウ内で自己注意を行い、チャネル次元に重みを共有するためである。
局所窓の自己アテンションと深度ワイドの畳み込みを並列設計で組み合わせ, クロスウィンドウ接続をモデル化し, 受容場を拡大する。
- 参考スコア(独自算出の注目度): 68.86393312123168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While local-window self-attention performs notably in vision tasks, it
suffers from limited receptive field and weak modeling capability issues. This
is mainly because it performs self-attention within non-overlapped windows and
shares weights on the channel dimension. We propose MixFormer to find a
solution. First, we combine local-window self-attention with depth-wise
convolution in a parallel design, modeling cross-window connections to enlarge
the receptive fields. Second, we propose bi-directional interactions across
branches to provide complementary clues in the channel and spatial dimensions.
These two designs are integrated to achieve efficient feature mixing among
windows and dimensions. Our MixFormer provides competitive results on image
classification with EfficientNet and shows better results than RegNet and Swin
Transformer. Performance in downstream tasks outperforms its alternatives by
significant margins with less computational costs in 5 dense prediction tasks
on MS COCO, ADE20k, and LVIS. Code is available at
\url{https://github.com/PaddlePaddle/PaddleClas}.
- Abstract(参考訳): ローカルウィンドウの自己照準は視覚タスクで特に機能するが、受容野と弱いモデリング能力の問題に苦しむ。
これは主に、オーバーラップされていないウィンドウ内で自己注意を行い、チャネル次元に重みを共有するためである。
解決策を見つけるためにmixformerを提案する。
まず, 局所ウインド自足と深さ方向畳み込みを並列設計で組み合わせ, 受容場を拡大するためにクロスウインド接続をモデル化する。
第2に,分岐間の双方向相互作用を提案し,チャネルと空間次元の補足的な手がかりを提供する。
これら2つの設計は、ウィンドウと寸法の効率的な混合を実現するために統合されている。
私たちのMixFormerは、EfficientNetによる画像分類の競合結果を提供し、RegNetやSwin Transformerよりも優れた結果を示している。
下流タスクのパフォーマンスは、MS COCO、ADE20k、LVISの5つの密集予測タスクにおいて、計算コストの削減とともに、その代替案よりも大幅に向上する。
コードは \url{https://github.com/PaddlePaddle/PaddleClas} で入手できる。
関連論文リスト
- Revisiting the Integration of Convolution and Attention for Vision Backbone [59.50256661158862]
畳み込みとMHSA(Multi-head self-attentions)は一般的に、視覚バックボーンを構築するための代替手段であると考えられている。
そこで本研究では,MSHAとConvsを,異なる粒度レベルで並列的に使用することを提案する。
我々は,提案手法であるtextitGLMix の可能性を実証的に検証した。軽量なConvs に細粒度機能の負荷をオフロードすることで,いくつかのセマンティックスロットで MHSAs を使用するのに十分である。
論文 参考訳(メタデータ) (2024-11-21T18:59:08Z) - EfficientVMamba: Atrous Selective Scan for Light Weight Visual Mamba [19.062950348441426]
本研究は、軽量モデル設計における視覚状態空間モデルの可能性を探究し、EfficientVMambaと呼ばれる新しい効率的なモデル変種を導入することを提案する。
我々のEfficientVMambaは、グローバルおよびローカルの両方の表現機能を利用するように設計されたビルディングブロックを構成する効率的なスキップサンプリングにより、アトラスベースの選択的スキャン手法を統合する。
実験の結果,EfficientVMambaは計算複雑性を縮小し,様々な視覚タスクの競合結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-03-15T02:48:47Z) - ScatterFormer: Efficient Voxel Transformer with Scattered Linear Attention [13.36619701679949]
ウィンドウベースのトランスフォーマーは、安価な注意計算でコンテキスト認識表現をキャプチャすることで、大規模クラウド理解において優れている。
既存のメソッドは、ウィンドウ内のボクセルを広範囲のソートとパディング操作を通じて固定長のシーケンスにグループ化する。
ScatterFormerは、異なるウィンドウにまたがるvoxelに直接、単一のシーケンスとして注意を向ける最初の方法です。
論文 参考訳(メタデータ) (2024-01-01T02:29:59Z) - TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic
Token Mixer for Visual Recognition [71.6546914957701]
本稿では,グローバルな情報と局所的な詳細を入力依存の方法で集約する軽量なDual Dynamic Token Mixer (D-Mixer)を提案する。
我々は、新しいハイブリッドCNN-TransformerビジョンバックボーンネットワークであるTransXNetを設計するために、基本的なビルディングブロックとしてD-Mixerを使用している。
ImageNet-1Kの画像分類タスクでは、TransXNet-TはSwing-Tを0.3%上回り、計算コストの半分以下である。
論文 参考訳(メタデータ) (2023-10-30T09:35:56Z) - DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition [62.95223898214866]
我々は,視覚変換器の有効性を探究し,参加する受容領域の計算複雑性とサイズとのトレードオフを追求する。
ピラミッドアーキテクチャを用いて,MSDAブロックを低レベルに積み重ねたマルチスケールDilated Transformer (DilateFormer) と,高レベルにグローバルなマルチヘッド自己保持ブロックを構築する。
実験の結果,DilateFormerは様々な視覚タスクで最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-02-03T14:59:31Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - CSWin Transformer: A General Vision Transformer Backbone with
Cross-Shaped Windows [99.36226415086243]
汎用視覚タスクのための効率的なトランスフォーマーベースバックボーンCSWin Transformerを提案する。
トランスフォーマー設計における課題は、グローバルな自己アテンションが計算に非常に高価であるのに対して、ローカルな自己アテンションはトークン間の相互作用のフィールドを制限することが多いことである。
論文 参考訳(メタデータ) (2021-07-01T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。