論文の概要: Simple and Efficient Architectures for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2206.08236v1
- Date: Thu, 16 Jun 2022 15:08:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-17 14:45:30.481145
- Title: Simple and Efficient Architectures for Semantic Segmentation
- Title(参考訳): セマンティックセグメンテーションのためのシンプルで効率的なアーキテクチャ
- Authors: Dushyant Mehta, Andrii Skliar, Haitam Ben Yahia, Shubhankar Borse,
Fatih Porikli, Amirhossein Habibian, Tijmen Blankevoort
- Abstract要約: ResNetのようなバックボーンと小型のマルチスケールヘッドを備えた単純なエンコーダデコーダアーキテクチャは,HRNetやFANet,DDRNetといった複雑なセマンティックセマンティックセマンティクスアーキテクチャよりも優れていることを示す。
そこで我々は,Cityscapesデータセット上の複雑なモデルの性能に適合する,あるいは超越した,デスクトップおよびモバイルターゲット用のこのようなシンプルなアーキテクチャのファミリーを提示する。
- 参考スコア(独自算出の注目度): 50.1563637917129
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Though the state-of-the architectures for semantic segmentation, such as
HRNet, demonstrate impressive accuracy, the complexity arising from their
salient design choices hinders a range of model acceleration tools, and further
they make use of operations that are inefficient on current hardware. This
paper demonstrates that a simple encoder-decoder architecture with a
ResNet-like backbone and a small multi-scale head, performs on-par or better
than complex semantic segmentation architectures such as HRNet, FANet and
DDRNets. Naively applying deep backbones designed for Image Classification to
the task of Semantic Segmentation leads to sub-par results, owing to a much
smaller effective receptive field of these backbones. Implicit among the
various design choices put forth in works like HRNet, DDRNet, and FANet are
networks with a large effective receptive field. It is natural to ask if a
simple encoder-decoder architecture would compare favorably if comprised of
backbones that have a larger effective receptive field, though without the use
of inefficient operations like dilated convolutions. We show that with minor
and inexpensive modifications to ResNets, enlarging the receptive field, very
simple and competitive baselines can be created for Semantic Segmentation. We
present a family of such simple architectures for desktop as well as mobile
targets, which match or exceed the performance of complex models on the
Cityscapes dataset. We hope that our work provides simple yet effective
baselines for practitioners to develop efficient semantic segmentation models.
- Abstract(参考訳): HRNetのようなセマンティックセグメンテーションのアーキテクチャは印象的な正確さを示しているが、それらの優れた設計選択から生じる複雑さは、さまざまなモデルアクセラレーションツールを妨げ、さらに現在のハードウェアで非効率な操作を利用する。
本稿では、ResNetのようなバックボーンと小型のマルチスケールヘッドを備えた単純なエンコーダデコーダアーキテクチャが、HRNet、FANet、DDRNetsのような複雑なセマンティックセマンティックセマンティクスアーキテクチャよりも優れていることを示す。
画像分類のために設計された深いバックボーンをセマンティックセグメンテーションのタスクに適用することは、これらのバックボーンの効果的な受容領域がはるかに小さいため、サブパー結果をもたらす。
HRNet、DDRNet、FANetのような様々な設計上の選択は、大きな効果的な受容領域を持つネットワークである。
単純なエンコーダ-デコーダアーキテクチャは、拡張畳み込みのような非効率な操作を使わずに、より大きな効果的な受容フィールドを持つバックボーンで構成される場合、好適に比較できるかどうかを問うのは自然である。
セマンティックセグメンテーションのために,ResNetのマイナーかつ安価な修正により,受容領域が拡大し,非常にシンプルで競争力のあるベースラインが作成できることが示される。
cityscapesデータセットの複雑なモデルのパフォーマンスに匹敵する、あるいは上回るモバイルターゲットと同様に、デスクトップ用のこのようなシンプルなアーキテクチャのファミリを提示する。
私たちの研究は、効率的なセマンティクスセグメンテーションモデルを開発するための、シンプルで効果的なベースラインを提供することを願っています。
関連論文リスト
- AsCAN: Asymmetric Convolution-Attention Networks for Efficient Recognition and Generation [48.82264764771652]
本稿では,畳み込みブロックと変圧器ブロックを組み合わせたハイブリッドアーキテクチャAsCANを紹介する。
AsCANは、認識、セグメンテーション、クラス条件画像生成など、さまざまなタスクをサポートしている。
次に、同じアーキテクチャをスケールして、大規模なテキスト・イメージタスクを解決し、最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-11-07T18:43:17Z) - The revenge of BiSeNet: Efficient Multi-Task Image Segmentation [6.172605433695617]
BiSeNetFormerは、効率的なマルチタスク画像セグメンテーションのための新しいアーキテクチャである。
複数のタスクをシームレスにサポートすることで、BiSeNetFormerはマルチタスクセグメンテーションのための汎用的なソリューションを提供する。
以上の結果から, BiSeNetFormerは高速, 効率的, マルチタスクセグメンテーションネットワークへの大きな進歩を示していることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T08:32:18Z) - PEM: Prototype-based Efficient MaskFormer for Image Segmentation [10.795762739721294]
最近のトランスベースのアーキテクチャは、画像セグメンテーションの分野で印象的な成果を上げている。
複数のセグメンテーションタスクで動作可能な効率的なトランスフォーマーベースのアーキテクチャであるPEM(Prototype-based Efficient MaskFormer)を提案する。
論文 参考訳(メタデータ) (2024-02-29T18:21:54Z) - A Simple Single-Scale Vision Transformer for Object Localization and
Instance Segmentation [79.265315267391]
We propose a simple and compact ViT architecture called Universal Vision Transformer (UViT)。
UViTは、オブジェクト検出とインスタンスセグメンテーションタスクで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-12-17T20:11:56Z) - Operation Embeddings for Neural Architecture Search [15.033712726016255]
最適化プロセスにおいて、固定演算子エンコーディングを学習可能な表現に置き換えることを提案する。
本手法は,同様の操作とグラフパターンを共有するトップパフォーマンスアーキテクチャを生成する。
論文 参考訳(メタデータ) (2021-05-11T09:17:10Z) - Boundary-Aware Segmentation Network for Mobile and Web Applications [60.815545591314915]
境界認識ネットワーク(basnet)は、精度の高い画像分割のための予測再定義アーキテクチャとハイブリッド損失と統合されている。
basnetは単一のgpu上で70fps以上動作し、多くの潜在的なアプリケーションが利用できる。
BASNetをベースに、BASNetが「COPY」と「PASTING」現実世界のオブジェクトのための拡張現実であるAR COPY & PASTEと、オブジェクト背景の自動削除のためのWebベースのツールであるOBJECT CUTの2つの(近い)商用アプリケーションをさらに開発しました。
論文 参考訳(メタデータ) (2021-01-12T19:20:26Z) - Towards Efficient Scene Understanding via Squeeze Reasoning [71.1139549949694]
我々はSqueeze Reasoningと呼ばれる新しいフレームワークを提案する。
空間地図上の情報を伝播するのではなく、まず入力特徴をチャネルワイドなグローバルベクトルに絞ることを学ぶ。
提案手法はエンドツーエンドのトレーニングブロックとしてモジュール化可能であり,既存のネットワークに簡単に接続可能であることを示す。
論文 参考訳(メタデータ) (2020-11-06T12:17:01Z) - Structured Convolutions for Efficient Neural Network Design [65.36569572213027]
畳み込みニューラルネットワーク構築ブロックのテクスト単純構造における冗長性を利用してモデル効率に取り組む。
この分解が2Dカーネルや3Dカーネルだけでなく、完全に接続されたレイヤにも適用可能であることを示す。
論文 参考訳(メタデータ) (2020-08-06T04:38:38Z) - Lets keep it simple, Using simple architectures to outperform deeper and
more complex architectures [12.76864681474486]
畳み込みニューラルネットワーク(CNN)には数億から数億のパラメータが含まれており、計算とメモリオーバーヘッドがかなり大きい。
我々はSimpleNetと呼ばれるシンプルなアーキテクチャを提案し、その設計原則を実証的に示し、十分に設計されながらシンプルで合理的に深いアーキテクチャはより深く複雑なアーキテクチャと同等に機能することを示した。
私たちの単純な13層アーキテクチャは、VGGNet、ResNet、GoogleNetといった、これまでよく知られたベンチマークにおいて、より深く複雑なアーキテクチャよりも優れています。
論文 参考訳(メタデータ) (2016-08-22T02:50:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。