Fugu-MT 論文翻訳(概要): Simple and Efficient Architectures for Semantic Segmentation

論文の概要: Simple and Efficient Architectures for Semantic Segmentation

arxiv url: http://arxiv.org/abs/2206.08236v1
Date: Thu, 16 Jun 2022 15:08:34 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-17 14:45:30.481145
Title: Simple and Efficient Architectures for Semantic Segmentation
Title（参考訳）: セマンティックセグメンテーションのためのシンプルで効率的なアーキテクチャ
Authors: Dushyant Mehta, Andrii Skliar, Haitam Ben Yahia, Shubhankar Borse, Fatih Porikli, Amirhossein Habibian, Tijmen Blankevoort
Abstract要約: ResNetのようなバックボーンと小型のマルチスケールヘッドを備えた単純なエンコーダデコーダアーキテクチャは,HRNetやFANet,DDRNetといった複雑なセマンティックセマンティックセマンティクスアーキテクチャよりも優れていることを示す。そこで我々は,Cityscapesデータセット上の複雑なモデルの性能に適合する,あるいは超越した,デスクトップおよびモバイルターゲット用のこのようなシンプルなアーキテクチャのファミリーを提示する。
参考スコア（独自算出の注目度）: 50.1563637917129
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Though the state-of-the architectures for semantic segmentation, such as HRNet, demonstrate impressive accuracy, the complexity arising from their salient design choices hinders a range of model acceleration tools, and further they make use of operations that are inefficient on current hardware. This paper demonstrates that a simple encoder-decoder architecture with a ResNet-like backbone and a small multi-scale head, performs on-par or better than complex semantic segmentation architectures such as HRNet, FANet and DDRNets. Naively applying deep backbones designed for Image Classification to the task of Semantic Segmentation leads to sub-par results, owing to a much smaller effective receptive field of these backbones. Implicit among the various design choices put forth in works like HRNet, DDRNet, and FANet are networks with a large effective receptive field. It is natural to ask if a simple encoder-decoder architecture would compare favorably if comprised of backbones that have a larger effective receptive field, though without the use of inefficient operations like dilated convolutions. We show that with minor and inexpensive modifications to ResNets, enlarging the receptive field, very simple and competitive baselines can be created for Semantic Segmentation. We present a family of such simple architectures for desktop as well as mobile targets, which match or exceed the performance of complex models on the Cityscapes dataset. We hope that our work provides simple yet effective baselines for practitioners to develop efficient semantic segmentation models.
Abstract（参考訳）: HRNetのようなセマンティックセグメンテーションのアーキテクチャは印象的な正確さを示しているが、それらの優れた設計選択から生じる複雑さは、さまざまなモデルアクセラレーションツールを妨げ、さらに現在のハードウェアで非効率な操作を利用する。本稿では、ResNetのようなバックボーンと小型のマルチスケールヘッドを備えた単純なエンコーダデコーダアーキテクチャが、HRNet、FANet、DDRNetsのような複雑なセマンティックセマンティックセマンティクスアーキテクチャよりも優れていることを示す。画像分類のために設計された深いバックボーンをセマンティックセグメンテーションのタスクに適用することは、これらのバックボーンの効果的な受容領域がはるかに小さいため、サブパー結果をもたらす。 HRNet、DDRNet、FANetのような様々な設計上の選択は、大きな効果的な受容領域を持つネットワークである。単純なエンコーダ-デコーダアーキテクチャは、拡張畳み込みのような非効率な操作を使わずに、より大きな効果的な受容フィールドを持つバックボーンで構成される場合、好適に比較できるかどうかを問うのは自然である。セマンティックセグメンテーションのために,ResNetのマイナーかつ安価な修正により,受容領域が拡大し,非常にシンプルで競争力のあるベースラインが作成できることが示される。 cityscapesデータセットの複雑なモデルのパフォーマンスに匹敵する、あるいは上回るモバイルターゲットと同様に、デスクトップ用のこのようなシンプルなアーキテクチャのファミリを提示する。私たちの研究は、効率的なセマンティクスセグメンテーションモデルを開発するための、シンプルで効果的なベースラインを提供することを願っています。

関連論文リスト

ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文参考訳（メタデータ） (2025-01-31T16:11:04Z)
AsCAN: Asymmetric Convolution-Attention Networks for Efficient Recognition and Generation [48.82264764771652]
本稿では,畳み込みブロックと変圧器ブロックを組み合わせたハイブリッドアーキテクチャAsCANを紹介する。 AsCANは、認識、セグメンテーション、クラス条件画像生成など、さまざまなタスクをサポートしている。次に、同じアーキテクチャをスケールして、大規模なテキスト・イメージタスクを解決し、最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2024-11-07T18:43:17Z)
The revenge of BiSeNet: Efficient Multi-Task Image Segmentation [6.172605433695617]
BiSeNetFormerは、効率的なマルチタスク画像セグメンテーションのための新しいアーキテクチャである。複数のタスクをシームレスにサポートすることで、BiSeNetFormerはマルチタスクセグメンテーションのための汎用的なソリューションを提供する。以上の結果から, BiSeNetFormerは高速, 効率的, マルチタスクセグメンテーションネットワークへの大きな進歩を示していることが示唆された。
論文参考訳（メタデータ） (2024-04-15T08:32:18Z)
PEM: Prototype-based Efficient MaskFormer for Image Segmentation [10.795762739721294]
最近のトランスベースのアーキテクチャは、画像セグメンテーションの分野で印象的な成果を上げている。複数のセグメンテーションタスクで動作可能な効率的なトランスフォーマーベースのアーキテクチャであるPEM(Prototype-based Efficient MaskFormer)を提案する。
論文参考訳（メタデータ） (2024-02-29T18:21:54Z)
A Simple Single-Scale Vision Transformer for Object Localization and Instance Segmentation [79.265315267391]
We propose a simple and compact ViT architecture called Universal Vision Transformer (UViT)。 UViTは、オブジェクト検出とインスタンスセグメンテーションタスクで強力なパフォーマンスを達成する。
論文参考訳（メタデータ） (2021-12-17T20:11:56Z)
Operation Embeddings for Neural Architecture Search [15.033712726016255]
最適化プロセスにおいて、固定演算子エンコーディングを学習可能な表現に置き換えることを提案する。本手法は,同様の操作とグラフパターンを共有するトップパフォーマンスアーキテクチャを生成する。
論文参考訳（メタデータ） (2021-05-11T09:17:10Z)
Boundary-Aware Segmentation Network for Mobile and Web Applications [60.815545591314915]
境界認識ネットワーク(basnet)は、精度の高い画像分割のための予測再定義アーキテクチャとハイブリッド損失と統合されている。 basnetは単一のgpu上で70fps以上動作し、多くの潜在的なアプリケーションが利用できる。 BASNetをベースに、BASNetが「COPY」と「PASTING」現実世界のオブジェクトのための拡張現実であるAR COPY & PASTEと、オブジェクト背景の自動削除のためのWebベースのツールであるOBJECT CUTの2つの(近い)商用アプリケーションをさらに開発しました。
論文参考訳（メタデータ） (2021-01-12T19:20:26Z)
Towards Efficient Scene Understanding via Squeeze Reasoning [71.1139549949694]
我々はSqueeze Reasoningと呼ばれる新しいフレームワークを提案する。空間地図上の情報を伝播するのではなく、まず入力特徴をチャネルワイドなグローバルベクトルに絞ることを学ぶ。提案手法はエンドツーエンドのトレーニングブロックとしてモジュール化可能であり,既存のネットワークに簡単に接続可能であることを示す。
論文参考訳（メタデータ） (2020-11-06T12:17:01Z)
Structured Convolutions for Efficient Neural Network Design [65.36569572213027]
畳み込みニューラルネットワーク構築ブロックのテクスト単純構造における冗長性を利用してモデル効率に取り組む。この分解が2Dカーネルや3Dカーネルだけでなく、完全に接続されたレイヤにも適用可能であることを示す。
論文参考訳（メタデータ） (2020-08-06T04:38:38Z)
Lets keep it simple, Using simple architectures to outperform deeper and more complex architectures [12.76864681474486]
畳み込みニューラルネットワーク(CNN)には数億から数億のパラメータが含まれており、計算とメモリオーバーヘッドがかなり大きい。我々はSimpleNetと呼ばれるシンプルなアーキテクチャを提案し、その設計原則を実証的に示し、十分に設計されながらシンプルで合理的に深いアーキテクチャはより深く複雑なアーキテクチャと同等に機能することを示した。私たちの単純な13層アーキテクチャは、VGGNet、ResNet、GoogleNetといった、これまでよく知られたベンチマークにおいて、より深く複雑なアーキテクチャよりも優れています。
論文参考訳（メタデータ） (2016-08-22T02:50:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。