論文の概要: Bottleneck Transformers for Visual Recognition
- arxiv url: http://arxiv.org/abs/2101.11605v1
- Date: Wed, 27 Jan 2021 18:55:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-01 19:43:26.061961
- Title: Bottleneck Transformers for Visual Recognition
- Title(参考訳): 視覚認識のためのボトルネックトランスフォーマー
- Authors: Aravind Srinivas, Tsung-Yi Lin, Niki Parmar, Jonathon Shlens, Pieter
Abbeel, Ashish Vaswani
- Abstract要約: 視覚タスクに自己注意を組み込んだ強力なバックボーンアーキテクチャであるBoTNetを提案する。
我々は、ImageNetベンチマークにおいて84.7%のトップ1の精度で高いパフォーマンスを達成するモデルを提案する。
私たちのシンプルで効果的なアプローチが、将来のビジョンのための自己注意モデル研究の強力なベースラインになることを期待しています。
- 参考スコア(独自算出の注目度): 97.16013761605254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present BoTNet, a conceptually simple yet powerful backbone architecture
that incorporates self-attention for multiple computer vision tasks including
image classification, object detection and instance segmentation. By just
replacing the spatial convolutions with global self-attention in the final
three bottleneck blocks of a ResNet and no other changes, our approach improves
upon the baselines significantly on instance segmentation and object detection
while also reducing the parameters, with minimal overhead in latency. Through
the design of BoTNet, we also point out how ResNet bottleneck blocks with
self-attention can be viewed as Transformer blocks. Without any bells and
whistles, BoTNet achieves 44.4% Mask AP and 49.7% Box AP on the COCO Instance
Segmentation benchmark using the Mask R-CNN framework; surpassing the previous
best published single model and single scale results of ResNeSt evaluated on
the COCO validation set. Finally, we present a simple adaptation of the BoTNet
design for image classification, resulting in models that achieve a strong
performance of 84.7% top-1 accuracy on the ImageNet benchmark while being up to
2.33x faster in compute time than the popular EfficientNet models on TPU-v3
hardware. We hope our simple and effective approach will serve as a strong
baseline for future research in self-attention models for vision.
- Abstract(参考訳): 画像分類,オブジェクト検出,インスタンスセグメンテーションなど,複数のコンピュータビジョンタスクに対するセルフアテンションを組み込んだ,概念的にシンプルで強力なバックボーンアーキテクチャであるbotnetを提案する。
ResNetの最終3つのボトルネックブロックにおける空間的畳み込みをグローバルな自己意識に置き換えるだけでなく、インスタンスのセグメンテーションとオブジェクト検出のベースラインを大幅に改善し、遅延のオーバーヘッドを最小限に抑えます。
また,BoTNetの設計を通じて,自己注意型ResNetボトルネックブロックをTransformerブロックとみなす方法も指摘した。
BoTNetは、Mask R-CNNフレームワークを使用したCOCO Instance Segmentationベンチマークで44.4%のMask APと49.7%のBox APを達成しました。
最後に、画像分類のためのBoTNet設計の簡単な適応を提案し、その結果、ImageNetベンチマークで84.7%の精度で、TPU-v3ハードウェア上の一般的なEfficientNetモデルよりも2.33倍高速である。
私たちのシンプルで効果的なアプローチが、将来のビジョンのための自己注意モデル研究の強力なベースラインになることを期待しています。
関連論文リスト
- Efficient Multi-order Gated Aggregation Network [47.677872597485106]
相互作用の複雑さは見過ごされているが、視覚認識にとって不可欠な指標であることを示す。
情報的コンテキストマイニングを追求するために、MogaNetという名前の効率的なConvNetの新しいファミリーが提示されている。
論文 参考訳(メタデータ) (2022-11-07T04:31:17Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Simple Training Strategies and Model Scaling for Object Detection [38.27709720726833]
RetinaNetおよびRCNN検出器を用いたバニラResNet-FPNバックボーンのベンチマークを行った。
バニラ検出器は精度が7.7%向上し、速度は30%速くなった。
我々の最大のRCNN-RSモデルは、ResNet152-FPNバックボーンで52.9%AP、SpineNet143Lバックボーンで53.6%APを達成した。
論文 参考訳(メタデータ) (2021-06-30T18:41:47Z) - VOLO: Vision Outlooker for Visual Recognition [148.12522298731807]
視覚変換器 (ViT) はイメージネット分類において自己注意に基づくモデルの可能性を示している。
我々は、新しい展望の展望を導入し、VoLO(Vision Outlooker)と呼ばれる、シンプルで一般的なアーキテクチャを提示する。
グローバルな依存性モデリングを粗いレベルで重視する自己注意とは異なり、展望はより詳細な機能やコンテキストをトークンに効率的にエンコードする。
実験の結果、私たちのVOLOはImageNet-1K分類で87.1%のトップ1の精度を達成しており、これはこの競合ベンチマークで87%以上の精度で最初のモデルである。
論文 参考訳(メタデータ) (2021-06-24T15:46:54Z) - Container: Context Aggregation Network [83.12004501984043]
最近の発見は、従来の畳み込みやトランスフォーマーコンポーネントを使わずに、シンプルなベースのソリューションが効果的な視覚表現を生成できることを示している。
マルチヘッドコンテキストアグリゲーションのための汎用ビルディングブロックCONText Ion NERtwokを提案する。
より大規模な入力画像解像度に依存する下流タスクにはスケールしないTransformerベースの手法とは対照的に、当社の効率的なネットワークであるModellightは、オブジェクト検出やインスタンスセグメンテーションネットワークに利用することができる。
論文 参考訳(メタデータ) (2021-06-02T18:09:11Z) - Adapting ImageNet-scale models to complex distribution shifts with
self-learning [31.609531118144528]
堅牢性研究に共通するImageNetスケールデータセットでは,自己学習手法は包括的に評価されていない。
i)教師と学生ネットワーク間の短い更新時間の利用, (ii)ネットワークに分散するアフィンパラメータの微調整, (iii) ラベルノイズの影響に対応するロバスト分類による手法の活用,の3つが自己学習によるパフォーマンス向上に不可欠である。
論文 参考訳(メタデータ) (2021-04-27T01:02:15Z) - Glance and Focus: a Dynamic Approach to Reducing Spatial Redundancy in
Image Classification [46.885260723836865]
ディープ畳み込みニューラルネットワーク (Deep Convolutional Neural Network, CNN) は、高解像度画像で処理することで一般的に改善される。
画像中のすべての領域がタスク関連であるとは限らないという事実に着想を得て,効率的な画像分類を行う新しいフレームワークを提案する。
我々のフレームワークは、最先端の軽量CNNの多くと互換性があり、汎用的で柔軟です。
論文 参考訳(メタデータ) (2020-10-11T17:55:06Z) - Local Grid Rendering Networks for 3D Object Detection in Point Clouds [98.02655863113154]
CNNは強力だが、全点の雲を高密度の3Dグリッドに酸化した後、点データに直接畳み込みを適用するのは計算コストがかかる。
入力点のサブセットの小さな近傍を低解像度の3Dグリッドに独立してレンダリングする,新しい,原理化されたローカルグリッドレンダリング(LGR)演算を提案する。
ScanNetとSUN RGB-Dデータセットを用いた3次元オブジェクト検出のためのLGR-Netを検証する。
論文 参考訳(メタデータ) (2020-07-04T13:57:43Z) - ResNeSt: Split-Attention Networks [86.25490825631763]
このアーキテクチャは、異なるネットワークブランチにチャンネルワイズを応用し、機能間相互作用のキャプチャと多様な表現の学習の成功を活用する。
我々のモデルはResNeStと呼ばれ、画像分類の精度と遅延トレードオフにおいてEfficientNetより優れています。
論文 参考訳(メタデータ) (2020-04-19T20:40:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。