論文の概要: HorNet: Efficient High-Order Spatial Interactions with Recursive Gated
Convolutions
- arxiv url: http://arxiv.org/abs/2207.14284v1
- Date: Thu, 28 Jul 2022 17:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-29 12:32:31.229054
- Title: HorNet: Efficient High-Order Spatial Interactions with Recursive Gated
Convolutions
- Title(参考訳): HorNet: 再帰的ゲーテッド畳み込みによる高次空間相互作用
- Authors: Yongming Rao, Wenliang Zhao, Yansong Tang, Jie Zhou, Ser-Nam Lim,
Jiwen Lu
- Abstract要約: 本稿では,畳み込みに基づくフレームワークを用いて,入力適応型,長距離,高次空間相互作用を効率的に実装可能であることを示す。
本稿では、ゲート畳み込みと高次空間相互作用を行うRecursive Gated Convolution(textitgtextitn$Conv)を提案する。
この操作に基づいて,HorNetという汎用視覚バックボーンを新たに構築する。
- 参考スコア(独自算出の注目度): 109.33112814212129
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in vision Transformers exhibits great success in various
tasks driven by the new spatial modeling mechanism based on dot-product
self-attention. In this paper, we show that the key ingredients behind the
vision Transformers, namely input-adaptive, long-range and high-order spatial
interactions, can also be efficiently implemented with a convolution-based
framework. We present the Recursive Gated Convolution
($\textit{g}^\textit{n}$Conv) that performs high-order spatial interactions
with gated convolutions and recursive designs. The new operation is highly
flexible and customizable, which is compatible with various variants of
convolution and extends the two-order interactions in self-attention to
arbitrary orders without introducing significant extra computation.
$\textit{g}^\textit{n}$Conv can serve as a plug-and-play module to improve
various vision Transformers and convolution-based models. Based on the
operation, we construct a new family of generic vision backbones named HorNet.
Extensive experiments on ImageNet classification, COCO object detection and
ADE20K semantic segmentation show HorNet outperform Swin Transformers and
ConvNeXt by a significant margin with similar overall architecture and training
configurations. HorNet also shows favorable scalability to more training data
and a larger model size. Apart from the effectiveness in visual encoders, we
also show $\textit{g}^\textit{n}$Conv can be applied to task-specific decoders
and consistently improve dense prediction performance with less computation.
Our results demonstrate that $\textit{g}^\textit{n}$Conv can be a new basic
module for visual modeling that effectively combines the merits of both vision
Transformers and CNNs. Code is available at
https://github.com/raoyongming/HorNet
- Abstract(参考訳): 視覚トランスフォーマーの最近の進歩は、ドット生成自己着眼に基づく新しい空間モデリング機構によって駆動される様々なタスクで大きな成功を収めている。
本稿では,視覚変換器の主要な要素である,入力適応型,長距離,高次空間相互作用も,畳み込みに基づくフレームワークで効率的に実装可能であることを示す。
本稿では、ゲート型畳み込みと再帰的設計による高次空間相互作用を行うRecursive Gated Convolution ($\textit{g}^\textit{n}$Conv)を提案する。
新しい操作は非常に柔軟でカスタマイズ可能で、様々な種類の畳み込みと互換性があり、余分な計算を導入することなく、自己の2階の相互作用を任意の順序に拡張する。
$\textit{g}^\textit{n}$Convは様々な視覚変換器や畳み込みベースのモデルを改善するためのプラグアンドプレイモジュールとして機能する。
この操作に基づいて,hornetと呼ばれる汎用視覚バックボーンの新たなファミリーを構築した。
ImageNet分類、COCOオブジェクト検出、ADE20Kセマンティックセマンティックセグメンテーションに関する大規模な実験は、HorNetがSwin TransformersとConvNeXtを、全体的なアーキテクチャとトレーニング構成に類似した大きなマージンで上回っていることを示している。
HorNetはまた、より多くのトレーニングデータとより大きなモデルサイズに対して好適なスケーラビリティを示している。
ビジュアルエンコーダの有効性は別として,タスク固有のデコーダに$\textit{g}^\textit{n}$Convを適用することで,より少ない計算で高い予測性能を向上できることを示す。
その結果、$\textit{g}^\textit{n}$convは視覚トランスフォーマーとcnnの両方の利点を効果的に組み合わせた視覚モデリングのための新しい基本モジュールとなることが判明した。
コードはhttps://github.com/raoyongming/HorNetで入手できる。
関連論文リスト
- ConvFormer: Plug-and-Play CNN-Style Transformers for Improving Medical
Image Segmentation [10.727162449071155]
我々はCNNスタイルのトランスフォーマー(ConvFormer)を構築し、より注意収束を促進し、セグメンテーション性能を向上させる。
位置埋め込みとトークン化とは対照的に、ConvFormerは2D畳み込みと最大プーリングを採用して位置情報の保存と特徴サイズの縮小を実現している。
論文 参考訳(メタデータ) (2023-09-09T02:18:17Z) - Dynamic Grained Encoder for Vision Transformers [150.02797954201424]
本稿では,自然画像の空間的冗長性を生かした視覚変換器のスパースクエリを提案する。
本研究では,各空間領域に適切なクエリ数を適応的に割り当てる動的変換器を提案する。
我々のエンコーダにより、最先端のビジョン変換器は、画像分類において同等の性能を維持しながら、計算複雑性を40%から60%削減できる。
論文 参考訳(メタデータ) (2023-01-10T07:55:29Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition [158.15602882426379]
本稿では,視覚認識のための最先端の手法を設計しようとはしないが,空間的特徴を符号化するために畳み込みを利用するより効率的な方法について検討する。
近年の畳み込みニューラルネットワーク(ConvNet)と視覚変換器(Vision Transformers)の設計原理を比較することにより,畳み込み変調操作を活用することで自己意識をシンプルにすることを提案する。
論文 参考訳(メタデータ) (2022-11-22T01:39:45Z) - Lawin Transformer: Improving Semantic Segmentation Transformer with
Multi-Scale Representations via Large Window Attention [16.75003034164463]
マルチスケール表現はセマンティックセグメンテーションに不可欠である。
本稿では,ウィンドウアテンション機構を用いたセマンティックセグメンテーション ViT にマルチスケール表現を導入する。
得られたViTであるLawin Transformerは、エンコーダとしてHVT、デコーダとしてLawinASPPから構成される。
論文 参考訳(メタデータ) (2022-01-05T13:51:20Z) - Local-to-Global Self-Attention in Vision Transformers [130.0369761612812]
トランスフォーマーはコンピュータビジョンタスクに大きな可能性を示した。
最近のTransformerモデルは階層設計を採用しており、セルフアテンションはローカルウィンドウ内でのみ計算される。
この設計は効率を大幅に改善するが、早い段階ではグローバルな特徴推論が欠如している。
本研究では,トランスフォーマーのマルチパス構造を設計し,各ステージにおける複数の粒度での局所的・言語的推論を可能にする。
論文 参考訳(メタデータ) (2021-07-10T02:34:55Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - Glance-and-Gaze Vision Transformer [13.77016463781053]
我々は Glance-and-Gaze Transformer (GG-Transformer) という新しい視覚変換器を提案する。
自然の場面で物体を認識するとき、人間のGlance and Gazeの行動によって動機付けられている。
提案手法は,従来の最先端変圧器よりも一貫した性能を実現することを実証的に実証する。
論文 参考訳(メタデータ) (2021-06-04T06:13:47Z) - CvT: Introducing Convolutions to Vision Transformers [44.74550305869089]
畳み込み視覚変換器(CvT)は、視覚変換器(ViT)の性能と効率を向上する。
新しいアーキテクチャはViTに畳み込み、両方の設計で最高のものを生み出す。
論文 参考訳(メタデータ) (2021-03-29T17:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。