論文の概要: Bottleneck Transformers for Visual Recognition
- arxiv url: http://arxiv.org/abs/2101.11605v1
- Date: Wed, 27 Jan 2021 18:55:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-01 19:43:26.061961
- Title: Bottleneck Transformers for Visual Recognition
- Title(参考訳): 視覚認識のためのボトルネックトランスフォーマー
- Authors: Aravind Srinivas, Tsung-Yi Lin, Niki Parmar, Jonathon Shlens, Pieter
Abbeel, Ashish Vaswani
- Abstract要約: 視覚タスクに自己注意を組み込んだ強力なバックボーンアーキテクチャであるBoTNetを提案する。
我々は、ImageNetベンチマークにおいて84.7%のトップ1の精度で高いパフォーマンスを達成するモデルを提案する。
私たちのシンプルで効果的なアプローチが、将来のビジョンのための自己注意モデル研究の強力なベースラインになることを期待しています。
- 参考スコア(独自算出の注目度): 97.16013761605254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present BoTNet, a conceptually simple yet powerful backbone architecture
that incorporates self-attention for multiple computer vision tasks including
image classification, object detection and instance segmentation. By just
replacing the spatial convolutions with global self-attention in the final
three bottleneck blocks of a ResNet and no other changes, our approach improves
upon the baselines significantly on instance segmentation and object detection
while also reducing the parameters, with minimal overhead in latency. Through
the design of BoTNet, we also point out how ResNet bottleneck blocks with
self-attention can be viewed as Transformer blocks. Without any bells and
whistles, BoTNet achieves 44.4% Mask AP and 49.7% Box AP on the COCO Instance
Segmentation benchmark using the Mask R-CNN framework; surpassing the previous
best published single model and single scale results of ResNeSt evaluated on
the COCO validation set. Finally, we present a simple adaptation of the BoTNet
design for image classification, resulting in models that achieve a strong
performance of 84.7% top-1 accuracy on the ImageNet benchmark while being up to
2.33x faster in compute time than the popular EfficientNet models on TPU-v3
hardware. We hope our simple and effective approach will serve as a strong
baseline for future research in self-attention models for vision.
- Abstract(参考訳): 画像分類,オブジェクト検出,インスタンスセグメンテーションなど,複数のコンピュータビジョンタスクに対するセルフアテンションを組み込んだ,概念的にシンプルで強力なバックボーンアーキテクチャであるbotnetを提案する。
ResNetの最終3つのボトルネックブロックにおける空間的畳み込みをグローバルな自己意識に置き換えるだけでなく、インスタンスのセグメンテーションとオブジェクト検出のベースラインを大幅に改善し、遅延のオーバーヘッドを最小限に抑えます。
また,BoTNetの設計を通じて,自己注意型ResNetボトルネックブロックをTransformerブロックとみなす方法も指摘した。
BoTNetは、Mask R-CNNフレームワークを使用したCOCO Instance Segmentationベンチマークで44.4%のMask APと49.7%のBox APを達成しました。
最後に、画像分類のためのBoTNet設計の簡単な適応を提案し、その結果、ImageNetベンチマークで84.7%の精度で、TPU-v3ハードウェア上の一般的なEfficientNetモデルよりも2.33倍高速である。
私たちのシンプルで効果的なアプローチが、将来のビジョンのための自己注意モデル研究の強力なベースラインになることを期待しています。
関連論文リスト
- Y-CA-Net: A Convolutional Attention Based Network for Volumetric Medical Image Segmentation [47.12719953712902]
差別的なローカル機能は、注目ベースのVSメソッドのパフォーマンスの鍵となるコンポーネントである。
コンボリューションエンコーダ分岐をトランスフォーマーバックボーンに組み込んで,局所的特徴と大域的特徴を並列に抽出する。
Y-CT-Netは、複数の医療セグメンテーションタスクにおいて競合性能を達成する。
論文 参考訳(メタデータ) (2024-10-01T18:50:45Z) - Scale-Invariant Object Detection by Adaptive Convolution with Unified Global-Local Context [3.061662434597098]
本稿では,効率的なDetモデルに基づくSAC-Net(Switchable Atrous Convolutional Network)を用いたオブジェクト検出モデルを提案する。
提案したSAC-Netは,マルチスケールオブジェクト検出タスクの性能向上を実現するために,低レベル機能と高レベル機能の両方の利点をカプセル化している。
ベンチマークデータセットを用いた実験により,提案したSAC-Netは,精度の点で最先端モデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-09-17T10:08:37Z) - Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。
我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。
我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文 参考訳(メタデータ) (2024-04-02T17:58:49Z) - Early Fusion of Features for Semantic Segmentation [10.362589129094975]
本稿では,効率的な画像分割を実現するために,分類器ネットワークとリバースHRNetアーキテクチャを統合する新しいセグメンテーションフレームワークを提案する。
私たちの手法は、Mapillary Vistas、Cityscapes、CamVid、COCO、PASCAL-VOC2012など、いくつかのベンチマークデータセットで厳格にテストされています。
その結果,画像解析における様々な応用の可能性を示し,高いセグメンテーション精度を実現する上で,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-02-08T22:58:06Z) - SODAWideNet -- Salient Object Detection with an Attention augmented Wide
Encoder Decoder network without ImageNet pre-training [3.66237529322911]
我々は、ImageNet事前トレーニングなしで、Salient Object Detectionを直接訓練したスクラッチからニューラルネットワークを開発することを検討する。
本稿では,Salient Object Detection のためのエンコーダデコーダ型ネットワーク SODAWideNet を提案する。
SODAWideNet-S (3.03M) と SODAWideNet (9.03M) の2つの変種は、5つのデータセット上の最先端モデルと競合する性能を達成する。
論文 参考訳(メタデータ) (2023-11-08T16:53:44Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Container: Context Aggregation Network [83.12004501984043]
最近の発見は、従来の畳み込みやトランスフォーマーコンポーネントを使わずに、シンプルなベースのソリューションが効果的な視覚表現を生成できることを示している。
マルチヘッドコンテキストアグリゲーションのための汎用ビルディングブロックCONText Ion NERtwokを提案する。
より大規模な入力画像解像度に依存する下流タスクにはスケールしないTransformerベースの手法とは対照的に、当社の効率的なネットワークであるModellightは、オブジェクト検出やインスタンスセグメンテーションネットワークに利用することができる。
論文 参考訳(メタデータ) (2021-06-02T18:09:11Z) - Local Grid Rendering Networks for 3D Object Detection in Point Clouds [98.02655863113154]
CNNは強力だが、全点の雲を高密度の3Dグリッドに酸化した後、点データに直接畳み込みを適用するのは計算コストがかかる。
入力点のサブセットの小さな近傍を低解像度の3Dグリッドに独立してレンダリングする,新しい,原理化されたローカルグリッドレンダリング(LGR)演算を提案する。
ScanNetとSUN RGB-Dデータセットを用いた3次元オブジェクト検出のためのLGR-Netを検証する。
論文 参考訳(メタデータ) (2020-07-04T13:57:43Z) - ResNeSt: Split-Attention Networks [86.25490825631763]
このアーキテクチャは、異なるネットワークブランチにチャンネルワイズを応用し、機能間相互作用のキャプチャと多様な表現の学習の成功を活用する。
我々のモデルはResNeStと呼ばれ、画像分類の精度と遅延トレードオフにおいてEfficientNetより優れています。
論文 参考訳(メタデータ) (2020-04-19T20:40:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。