論文の概要: SegNeXt: Rethinking Convolutional Attention Design for Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2209.08575v1
- Date: Sun, 18 Sep 2022 14:33:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 18:09:39.155228
- Title: SegNeXt: Rethinking Convolutional Attention Design for Semantic
Segmentation
- Title(参考訳): SegNeXt: セマンティックセグメンテーションのための畳み込みアテンション設計の再考
- Authors: Meng-Hao Guo, Cheng-Ze Lu, Qibin Hou, Zhengning Liu, Ming-Ming Cheng,
Shi-Min Hu
- Abstract要約: セマンティックセグメンテーションのための単純な畳み込みネットワークアーキテクチャであるSegNeXtを提案する。
コンボリューションアテンションは、トランスフォーマーの自己認識メカニズムよりも、文脈情報をエンコードするより効率的で効果的な方法であることを示す。
- 参考スコア(独自算出の注目度): 100.89770978711464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present SegNeXt, a simple convolutional network architecture for semantic
segmentation. Recent transformer-based models have dominated the field of
semantic segmentation due to the efficiency of self-attention in encoding
spatial information. In this paper, we show that convolutional attention is a
more efficient and effective way to encode contextual information than the
self-attention mechanism in transformers. By re-examining the characteristics
owned by successful segmentation models, we discover several key components
leading to the performance improvement of segmentation models. This motivates
us to design a novel convolutional attention network that uses cheap
convolutional operations. Without bells and whistles, our SegNeXt significantly
improves the performance of previous state-of-the-art methods on popular
benchmarks, including ADE20K, Cityscapes, COCO-Stuff, Pascal VOC, Pascal
Context, and iSAID. Notably, SegNeXt outperforms EfficientNet-L2 w/ NAS-FPN and
achieves 90.6% mIoU on the Pascal VOC 2012 test leaderboard using only 1/10
parameters of it. On average, SegNeXt achieves about 2.0% mIoU improvements
compared to the state-of-the-art methods on the ADE20K datasets with the same
or fewer computations. Code is available at https://github.com/uyzhang/JSeg
(Jittor) and https://github.com/Visual-Attention-Network/SegNeXt (Pytorch).
- Abstract(参考訳): セマンティックセグメンテーションのための単純な畳み込みネットワークアーキテクチャであるSegNeXtを提案する。
近年のトランスフォーマーモデルでは,空間情報の符号化における自己注意の効率性から,意味セグメンテーションの分野が主流となっている。
本稿では,畳み込みの注意が,トランスフォーマーの自己着脱機構よりもコンテクスト情報をエンコードするための効率的かつ効果的な方法であることを示す。
セグメンテーションモデルが持つ特徴を再検討することにより,セグメンテーションモデルの性能改善につながる重要な要素をいくつか発見する。
これは、安価な畳み込み操作を使用する新しい畳み込み注意ネットワークを設計する動機となる。
ベルやホイッスルがなければ、SegNeXtはADE20K、Cityscapes、COCO-Stuff、Pascal VOC、Pascal Context、iSAIDなど、一般的なベンチマークにおける従来の最先端メソッドのパフォーマンスを大幅に改善します。
特に、SegNeXtはEfficientNet-L2 w/NAS-FPNより優れ、Pascal VOC 2012テストリーダーボード上では1/10パラメータのみを使用して90.6%のmIoUを達成した。
平均して、SegNeXtは、同じまたは少ない計算でADE20Kデータセットの最先端メソッドと比較して、約2.0% mIoUの改善を実現している。
コードはhttps://github.com/uyzhang/JSeg (Jittor)とhttps://github.com/Visual-Attention-Network/SegNeXt (Pytorch)で入手できる。
関連論文リスト
- UniMatch V2: Pushing the Limit of Semi-Supervised Semantic Segmentation [26.91063423376469]
半教師付きセマンティックセグメンテーション(SSS)は、安価な未ラベル画像から豊富な視覚知識を学習することを目的としている。
アップグレードされ、単純化されたUniMatch V2を示し、V1から弱い一貫性のコアスピリットを継承する。
論文 参考訳(メタデータ) (2024-10-14T17:49:27Z) - SegViTv2: Exploring Efficient and Continual Semantic Segmentation with
Plain Vision Transformers [76.13755422671822]
本稿では,エンコーダ・デコーダ・フレームワークを用いた意味的セグメンテーションのためのプレーンビジョン変換器(ViT)の能力について検討する。
Intention-to-Mask(atm)モジュールを導入し、平易なViTに有効な軽量デコーダを設計する。
我々のデコーダは、様々なViTバックボーンを使用して人気のあるデコーダUPerNetより優れ、計算コストの5%程度しか消費しない。
論文 参考訳(メタデータ) (2023-06-09T22:29:56Z) - RTFormer: Efficient Design for Real-Time Semantic Segmentation with
Transformer [63.25665813125223]
本稿では,リアルタイムセマンティックセグメンテーションのための効率的なデュアルレゾリューション変換器RTFormerを提案する。
CNNベースのモデルよりもパフォーマンスと効率のトレードオフが優れている。
主要なベンチマーク実験では,提案したRTFormerの有効性を示す。
論文 参考訳(メタデータ) (2022-10-13T16:03:53Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - Dynamically pruning segformer for efficient semantic segmentation [8.29672153078638]
効率的なセマンティックセグメンテーションのための軽量セグメンテーションセグメンテーションを設計する。
本研究は,SegFormer層内のニューロンが異なる画像間で大きなばらつきを示すという観測に基づいて,動的ゲート線形層を提案する。
また,2段階の知識蒸留を導入し,原教師内の知識を刈り取られた学生ネットワークに伝達する。
論文 参考訳(メタデータ) (2021-11-18T03:34:28Z) - SegFormer: Simple and Efficient Design for Semantic Segmentation with
Transformers [79.646577541655]
我々は,トランスフォーマーを軽量多層認識(MLP)デコーダと統合するセマンティックセグメンテーションフレームワークであるSegFormerを提案する。
SegFormerは、マルチスケール機能を出力する、新しく構造化されたエンコーダで構成されている。
提案するデコーダは,異なるレイヤからの情報を集約し,局所的な注意とグローバルな注意の両方を強力な表現に結合する。
論文 参考訳(メタデータ) (2021-05-31T17:59:51Z) - Unifying Instance and Panoptic Segmentation with Dynamic Rank-1
Convolutions [109.2706837177222]
DR1Maskは、インスタンスとセマンティックセグメンテーションの両方で共有機能マップを利用する最初のパノプティクスセグメンテーションフレームワークである。
副産物として、DR1Maskは従来の最先端のインスタンスセグメンテーションネットワークであるBlendMaskよりも10%高速で1ポイント精度が高い。
論文 参考訳(メタデータ) (2020-11-19T12:42:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。