論文の概要: ConTNet: Why not use convolution and transformer at the same time?
- arxiv url: http://arxiv.org/abs/2104.13497v1
- Date: Tue, 27 Apr 2021 22:29:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-29 12:51:01.034366
- Title: ConTNet: Why not use convolution and transformer at the same time?
- Title(参考訳): ConTNet: なぜ同時に畳み込みとトランスフォーマーを使用しないのですか?
- Authors: Haotian Yan, Zhe Li, Weijian Li, Changhu Wang, Ming Wu, Chuang Zhang
- Abstract要約: トランスとConvNetアーキテクチャを組み合わせて、大きなレセプティブフィールドを提供するConTNetを提案します。
画像分類と下流タスクにおけるその優位性と有効性を提示する。
ConTNetがCVタスクの有用なバックボーンとなり、モデル設計に新しいアイデアをもたらすことを期待しています。
- 参考スコア(独自算出の注目度): 28.343371000297747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although convolutional networks (ConvNets) have enjoyed great success in
computer vision (CV), it suffers from capturing global information crucial to
dense prediction tasks such as object detection and segmentation. In this work,
we innovatively propose ConTNet (ConvolutionTransformer Network), combining
transformer with ConvNet architectures to provide large receptive fields.
Unlike the recently-proposed transformer-based models (e.g., ViT, DeiT) that
are sensitive to hyper-parameters and extremely dependent on a pile of data
augmentations when trained from scratch on a midsize dataset (e.g.,
ImageNet1k), ConTNet can be optimized like normal ConvNets (e.g., ResNet) and
preserve an outstanding robustness. It is also worth pointing that, given
identical strong data augmentations, the performance improvement of ConTNet is
more remarkable than that of ResNet. We present its superiority and
effectiveness on image classification and downstream tasks. For example, our
ConTNet achieves 81.8% top-1 accuracy on ImageNet which is the same as DeiT-B
with less than 40% computational complexity. ConTNet-M also outperforms
ResNet50 as the backbone of both Faster-RCNN (by 2.6%) and Mask-RCNN (by 3.2%)
on COCO2017 dataset. We hope that ConTNet could serve as a useful backbone for
CV tasks and bring new ideas for model design
- Abstract(参考訳): 畳み込みネットワーク(convnets)はコンピュータビジョン(cv)で大きな成功を収めているが、オブジェクト検出やセグメンテーションといった密集した予測タスクに不可欠なグローバルな情報収集に苦しむ。
本研究では,ContNet(Convolution Transformer Network)とConvNetアーキテクチャを組み合わせて,大きな受容場を提供する。
ハイパーパラメータに敏感で、中規模のデータセット(イメージNet1kなど)でスクラッチからトレーニングした時にデータ拡張の山に非常に依存する、最近提案されたトランスフォーマーベースのモデル(例えば、ViT、DeiT)とは異なり、ConTNetは通常のConvNet(例えば、ResNet)のように最適化でき、顕著な堅牢性を維持することができる。
また、同じ強力なデータ拡張を考えると、ConTNetのパフォーマンス改善はResNetよりも顕著であることも指摘しておく価値がある。
画像分類や下流タスクにおいて,その優位性と有効性を示す。
例えば、私たちのConTNetは、40%未満の計算複雑性を持つDeiT-Bと同じImageNetで81.8%のトップ1の精度を実現しています。
ConTNet-Mは、COCO2017データセット上でFaster-RCNN(2.6%)とMask-RCNN(3.2%)の両方のバックボーンとしてResNet50を上回っている。
ConTNetがCVタスクの有用なバックボーンとして機能し、モデル設計に新たなアイデアをもたらすことを期待しています。
関連論文リスト
- Learning to Generate Parameters of ConvNets for Unseen Image Data [36.68392191824203]
ConvNetは大量の画像データに依存しており、ネットワークパラメータを学習するための反復最適化アルゴリズムを採用している。
本稿では,新しい学習パラダイムを提案し,予測タスクにConvNetのパラメータ学習を定式化する。
提案手法は,2種類の画像データセットに対して有効であることを示す。
論文 参考訳(メタデータ) (2023-10-18T10:26:18Z) - Are Large Kernels Better Teachers than Transformers for ConvNets? [82.4742785108714]
本稿では,最近出現した大規模カーネル畳み込みニューラルネットワーク(ConvNets)の新たな魅力を明らかにする。
論文 参考訳(メタデータ) (2023-05-30T21:05:23Z) - Reinforce Data, Multiply Impact: Improved Model Accuracy and Robustness
with Dataset Reinforcement [68.44100784364987]
本研究では、強化データセット上でトレーニングされたモデルアーキテクチャの精度が、ユーザにとって追加のトレーニングコストなしで向上するように、データセットを改善する戦略を提案する。
ImageNet+と呼ばれるImageNetトレーニングデータセットの強化バージョンと、強化されたデータセットCIFAR-100+、Flowers-102+、Food-101+を作成します。
ImageNet+でトレーニングされたモデルは、より正確で、堅牢で、校正され、下流タスクにうまく転送されます。
論文 参考訳(メタデータ) (2023-03-15T23:10:17Z) - MogaNet: Multi-order Gated Aggregation Network [64.16774341908365]
我々は,識別的視覚的表現学習のために,MogaNetと呼ばれる現代ConvNetの新たなファミリーを提案する。
MogaNetは概念的に単純だが効果的な畳み込みをカプセル化し、集約をコンパクトモジュールに集約する。
MogaNetは、ImageNetの最先端のViTやConvNetと比較して、優れたスケーラビリティ、パラメータの大幅な効率、競争性能を示している。
論文 参考訳(メタデータ) (2022-11-07T04:31:17Z) - Fast-ParC: Capturing Position Aware Global Feature for ConvNets and ViTs [35.39701561076837]
本稿では,位置認識型円形畳み込み(ParC)と呼ばれるニューラルネットワーク演算子と,その高速化バージョンであるFast-ParCを提案する。
我々のFast-ParCは、Fast Fourier Transformを使用してParCのO(n2)時間をO(n log n)に短縮する。
実験の結果,ParC opは従来のConvNetの受容領域を効果的に拡大できることがわかった。
論文 参考訳(メタデータ) (2022-10-08T13:14:02Z) - EdgeFormer: Improving Light-weight ConvNets by Learning from Vision
Transformers [29.09883780571206]
We propose EdgeFormer, a pure ConvNet based backbone model。
我々は、大域的な円形の畳み込み(GCC)と、軽量な畳み込みオペである位置埋め込みを組み合わせる。
実験の結果,提案するEdgeFormerは,一般的な軽量なConvNetやビジョントランスフォーマーベースモデルよりも優れた性能を実現していることがわかった。
論文 参考訳(メタデータ) (2022-03-08T09:25:17Z) - Bottleneck Transformers for Visual Recognition [97.16013761605254]
視覚タスクに自己注意を組み込んだ強力なバックボーンアーキテクチャであるBoTNetを提案する。
我々は、ImageNetベンチマークにおいて84.7%のトップ1の精度で高いパフォーマンスを達成するモデルを提案する。
私たちのシンプルで効果的なアプローチが、将来のビジョンのための自己注意モデル研究の強力なベースラインになることを期待しています。
論文 参考訳(メタデータ) (2021-01-27T18:55:27Z) - ResNet or DenseNet? Introducing Dense Shortcuts to ResNet [80.35001540483789]
本稿では、それらを解析するために高密度和の統一的な視点を示す。
本稿では,ResNetとDenseNetのジレンマに対する解法として,重み付き正規化ショートカットを提案する。
提案したDSNetはResNetよりもはるかに優れた結果を得ることができ、DenseNetと同等の性能を得るが、リソースは少ない。
論文 参考訳(メタデータ) (2020-10-23T16:00:15Z) - DyNet: Dynamic Convolution for Accelerating Convolutional Neural
Networks [16.169176006544436]
本稿では,画像内容に基づいてコンボリューションカーネルを適応的に生成する動的畳み込み手法を提案する。
MobileNetV3-Small/Largeアーキテクチャに基づいて、DyNetはImageNet上で70.3/77.1%のTop-1精度を達成し、2.9/1.9%改善した。
論文 参考訳(メタデータ) (2020-04-22T16:58:05Z) - Improved Residual Networks for Image and Video Recognition [98.10703825716142]
ResNets(Residual Networks)は、CNN(Convolutional Neural Network)アーキテクチャの強力なタイプである。
ベースライン上での精度と学習収束性を一貫した改善を示す。
提案手法では,高度に深いネットワークをトレーニングできるが,ベースラインは厳密な最適化問題を示す。
論文 参考訳(メタデータ) (2020-04-10T11:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。