論文の概要: Fast-ParC: Position Aware Global Kernel for ConvNets and ViTs
- arxiv url: http://arxiv.org/abs/2210.04020v1
- Date: Sat, 8 Oct 2022 13:14:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 17:19:37.993314
- Title: Fast-ParC: Position Aware Global Kernel for ConvNets and ViTs
- Title(参考訳): Fast-ParC: ConvNet と ViT のための位置対応グローバルカーネル
- Authors: Tao Yang, Haokui Zhang, Wenze Hu, Changwen Chen, Xiaoyu Wang
- Abstract要約: 本稿では,位置認識型円形畳み込み(ParC)と呼ばれるニューラルネットワーク演算子と,その高速化バージョンであるFast-ParCを提案する。
我々のFast-ParCは、Fast Fourier Transformを使用してParCのO(n2)時間をO(n log n)に短縮する。
実験の結果,ParC opは従来のConvNetの受容領域を効果的に拡大できることがわかった。
- 参考スコア(独自算出の注目度): 47.099740186083764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer models have made tremendous progress in various fields in recent
years. In the field of computer vision, vision transformers (ViTs) also become
strong alternatives to convolutional neural networks (ConvNets), yet they have
not been able to replace ConvNets since both have their own merits. For
instance, ViTs are good at extracting global features with attention mechanisms
while ConvNets are more efficient in modeling local relationships due to their
strong inductive bias. A natural idea that arises is to combine the strengths
of both ConvNets and ViTs to design new structures. In this paper, we propose a
new basic neural network operator named position-aware circular convolution
(ParC) and its accelerated version Fast-ParC. The ParC operator can capture
global features by using a global kernel and circular convolution while keeping
location sensitiveness by employing position embeddings. Our Fast-ParC further
reduces the O(n2) time complexity of ParC to O(n log n) using Fast Fourier
Transform. This acceleration makes it possible to use global convolution in the
early stages of models with large feature maps, yet still maintains the overall
computational cost comparable with using 3x3 or 7x7 kernels. The proposed
operation can be used in a plug-and-play manner to 1) convert ViTs to
pure-ConvNet architecture to enjoy wider hardware support and achieve higher
inference speed; 2) replacing traditional convolutions in the deep stage of
ConvNets to improve accuracy by enlarging the effective receptive field.
Experiment results show that our ParC op can effectively enlarge the receptive
field of traditional ConvNets, and adopting the proposed op benefits both ViTs
and ConvNet models on all three popular vision tasks, image classification,
object
- Abstract(参考訳): 近年、トランスフォーマーモデルは様々な分野で大きな進歩を遂げている。
コンピュータビジョンの分野では、視覚トランスフォーマー(ViT)も畳み込みニューラルネットワーク(ConvNet)の強力な代替手段となるが、どちらも独自のメリットを持っているため、ConvNetを置き換えることはできない。
例えば、ViTは注意機構を持つグローバルな特徴の抽出に長けており、一方でConvNetは強い帰納バイアスのために局所的な関係をモデル化する上でより効率的である。
自然界のアイデアは、新しい構造を設計するためにConvNetsとViTsの強みを組み合わせることである。
本稿では,位置認識型円形畳み込み(parc)と呼ばれる新しい基本ニューラルネットワーク演算子とその高速化バージョンであるfast-parcを提案する。
parcオペレータは、グローバルカーネルと円畳み込みを使い、位置埋め込みを利用して位置感度を維持しながら、グローバルな特徴を捉えることができる。
我々のFast-ParCは、Fast Fourier Transformを使用してParCのO(n2)時間をO(n log n)に短縮する。
この加速により、大きな特徴マップを持つモデルの初期段階でグローバル畳み込みを使用できるが、それでも3x3や7x7カーネルと同等の計算コストを維持できる。
提案する操作はプラグアンドプレイ方式で使用できる。
1) ViT を純ConvNet アーキテクチャに変換し、より広いハードウェアサポートを享受し、より高い推論速度を達成する。
2)ConvNetsの深層における従来の畳み込みを置き換え,有効受容場を大きくすることで精度を向上させる。
実験結果から、我々のParC opは従来のConvNetの受容領域を効果的に拡大し、VTモデルとConvNetモデルの両方を3つの一般的な視覚タスク、画像分類、オブジェクトに適用できることがわかった。
関連論文リスト
- Interpret Vision Transformers as ConvNets with Dynamic Convolutions [70.59235381143831]
我々は、ビジョントランスフォーマーを動的畳み込みを備えたConvNetと解釈し、既存のトランスフォーマーと動的コンバータを統一されたフレームワークで特徴付けることができる。
ConvNetsの設計空間から視覚変換器を考えることができるため、我々の解釈もネットワーク設計を導くことができる。
論文 参考訳(メタデータ) (2023-09-19T16:00:49Z) - Are Large Kernels Better Teachers than Transformers for ConvNets? [82.4742785108714]
本稿では,最近出現した大規模カーネル畳み込みニューラルネットワーク(ConvNets)の新たな魅力を明らかにする。
論文 参考訳(メタデータ) (2023-05-30T21:05:23Z) - Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition [158.15602882426379]
本稿では,視覚認識のための最先端の手法を設計しようとはしないが,空間的特徴を符号化するために畳み込みを利用するより効率的な方法について検討する。
近年の畳み込みニューラルネットワーク(ConvNet)と視覚変換器(Vision Transformers)の設計原理を比較することにより,畳み込み変調操作を活用することで自己意識をシンプルにすることを提案する。
論文 参考訳(メタデータ) (2022-11-22T01:39:45Z) - MogaNet: Multi-order Gated Aggregation Network [64.16774341908365]
我々は,識別的視覚的表現学習のために,MogaNetと呼ばれる現代ConvNetの新たなファミリーを提案する。
MogaNetは概念的に単純だが効果的な畳み込みをカプセル化し、集約をコンパクトモジュールに集約する。
MogaNetは、ImageNetの最先端のViTやConvNetと比較して、優れたスケーラビリティ、パラメータの大幅な効率、競争性能を示している。
論文 参考訳(メタデータ) (2022-11-07T04:31:17Z) - VidConv: A modernized 2D ConvNet for Efficient Video Recognition [0.8070014188337304]
ビジョントランスフォーマー(ViT)は、多くのビジョンタスクにおいて、着実に記録を破っている。
ViTは一般的に計算量、メモリ消費量、組込みデバイスには不向きである。
本稿では、ConvNetの近代化された構造を用いて、アクション認識のための新しいバックボーンを設計する。
論文 参考訳(メタデータ) (2022-07-08T09:33:46Z) - EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision
Transformers [88.52500757894119]
自己注意に基づく視覚変換器(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる、非常に競争力のあるアーキテクチャとして登場した。
われわれはEdgeViTsを紹介した。これは新しい軽量ViTのファミリーで、注目に基づく視覚モデルが初めて、最高の軽量CNNと競合することを可能にする。
論文 参考訳(メタデータ) (2022-05-06T18:17:19Z) - EdgeFormer: Improving Light-weight ConvNets by Learning from Vision
Transformers [29.09883780571206]
We propose EdgeFormer, a pure ConvNet based backbone model。
我々は、大域的な円形の畳み込み(GCC)と、軽量な畳み込みオペである位置埋め込みを組み合わせる。
実験の結果,提案するEdgeFormerは,一般的な軽量なConvNetやビジョントランスフォーマーベースモデルよりも優れた性能を実現していることがわかった。
論文 参考訳(メタデータ) (2022-03-08T09:25:17Z) - LeViT: a Vision Transformer in ConvNet's Clothing for Faster Inference [25.63398340113755]
高速システムにおける精度と効率のトレードオフを最適化する画像分類アーキテクチャのファミリーを設計します。
視覚変換器に位置情報を統合する新しい手法である注意バイアスを導入する。
全体として、LeViTは、スピード/精度のトレードオフに関して、既存のコンベットとビジョントランスを大幅に上回ります。
論文 参考訳(メタデータ) (2021-04-02T16:29:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。