論文の概要: Lightweight and Progressively-Scalable Networks for Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2207.13600v1
- Date: Wed, 27 Jul 2022 16:00:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-28 13:40:59.397413
- Title: Lightweight and Progressively-Scalable Networks for Semantic
Segmentation
- Title(参考訳): セマンティックセグメンテーションのための軽量かつ漸進的なネットワーク
- Authors: Yiheng Zhang and Ting Yao and Zhaofan Qiu and Tao Mei
- Abstract要約: マルチスケール学習フレームワークは,セマンティックセグメンテーションを向上する有効なモデルのクラスと見なされてきた。
本稿では,畳み込みブロックの設計と,複数スケールにわたる相互作用の仕方について,徹底的に解析する。
我々は,軽量で拡張性の高いネットワーク(LPS-Net)を考案した。
- 参考スコア(独自算出の注目度): 100.63114424262234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-scale learning frameworks have been regarded as a capable class of
models to boost semantic segmentation. The problem nevertheless is not trivial
especially for the real-world deployments, which often demand high efficiency
in inference latency. In this paper, we thoroughly analyze the design of
convolutional blocks (the type of convolutions and the number of channels in
convolutions), and the ways of interactions across multiple scales, all from
lightweight standpoint for semantic segmentation. With such in-depth
comparisons, we conclude three principles, and accordingly devise Lightweight
and Progressively-Scalable Networks (LPS-Net) that novelly expands the network
complexity in a greedy manner. Technically, LPS-Net first capitalizes on the
principles to build a tiny network. Then, LPS-Net progressively scales the tiny
network to larger ones by expanding a single dimension (the number of
convolutional blocks, the number of channels, or the input resolution) at one
time to meet the best speed/accuracy tradeoff. Extensive experiments conducted
on three datasets consistently demonstrate the superiority of LPS-Net over
several efficient semantic segmentation methods. More remarkably, our LPS-Net
achieves 73.4% mIoU on Cityscapes test set, with the speed of 413.5FPS on an
NVIDIA GTX 1080Ti, leading to a performance improvement by 1.5% and a 65%
speed-up against the state-of-the-art STDC. Code is available at
\url{https://github.com/YihengZhang-CV/LPS-Net}.
- Abstract(参考訳): マルチスケール学習フレームワークは,セマンティックセグメンテーションを向上する有効なモデルのクラスと見なされてきた。
それでも問題は、推論レイテンシの高効率をしばしば要求する現実世界のデプロイメントにおいて、特に自明なものではない。
本稿では,畳み込みブロックの設計(畳み込みのタイプと畳み込みのチャネル数)と,複数のスケールにわたるインタラクションの方法について,それぞれが意味セグメンテーションのための軽量な観点から徹底的に分析する。
このような詳細な比較によって,我々は3つの原則を結論付け,軽量かつ漸進的なスケーラブルネットワーク(lps-net)を考案し,ネットワークの複雑さを新たな方法で拡張する。
技術的には、lps-netはまず小さなネットワークを構築するための原則に乗じる。
次にlps-netは、単一の次元(畳み込みブロック数、チャネル数、入力解像度)を最大速度/精度のトレードオフを満たすように一度に拡大することで、小さなネットワークを大きなネットワークに段階的にスケールさせる。
3つのデータセットで行った広範囲な実験は、lps-netが複数の効率的なセマンティックセグメンテーション法よりも優れていることを一貫して証明している。
さらに驚くべきことに、私たちのLPS-NetはCityscapesテストセットで73.4% mIoUを達成し、NVIDIA GTX 1080Tiで413.5FPSの速度でパフォーマンスが1.5%向上し、最先端STDCに対して65%のスピードアップを実現しました。
コードは \url{https://github.com/yihengzhang-cv/lps-net} で入手できる。
関連論文リスト
- Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - SFNet: Faster and Accurate Semantic Segmentation via Semantic Flow [88.97790684009979]
性能を改善するための一般的な実践は、強力な意味表現を持つ高解像度の特徴写像を得ることである。
隣接レベルの特徴マップ間のテキストセマンティックフローを学習するためのフローアライメントモジュール(FAM)を提案する。
また,高分解能特徴写像と低分解能特徴写像を直接整列するGated Dual Flow Alignment Moduleを提案する。
論文 参考訳(メタデータ) (2022-07-10T08:25:47Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - MSCFNet: A Lightweight Network With Multi-Scale Context Fusion for
Real-Time Semantic Segmentation [27.232578592161673]
マルチスケールコンテキスト融合スキーム(MSCFNet)を用いた新しい軽量ネットワークを考案する。
提案されたMSCFNetは1.15Mパラメータのみを含み、71.9%のMean IoUを実現し、1つのTitan XP GPU構成で50 FPS以上で実行できる。
論文 参考訳(メタデータ) (2021-03-24T08:28:26Z) - Dense Dual-Path Network for Real-time Semantic Segmentation [7.8381744043673045]
本稿では,資源制約下でのリアルタイムセマンティックセグメンテーションのための新しいDual-Path Network(DDPNet)を提案する。
DDPNetは、GTX 1080Tiカードの1024 X 2048解像度の入力に対して52.6 FPSで75.3% mIoUを達成した。
論文 参考訳(メタデータ) (2020-10-21T06:11:41Z) - Fully Dynamic Inference with Deep Neural Networks [19.833242253397206]
Layer-Net(L-Net)とChannel-Net(C-Net)と呼ばれる2つのコンパクトネットワークは、どのレイヤやフィルタ/チャネルが冗長であるかをインスタンス毎に予測する。
CIFAR-10データセットでは、LC-Netは11.9$times$ less floating-point Operations (FLOPs) となり、他の動的推論手法と比較して最大3.3%精度が向上する。
ImageNetデータセットでは、LC-Netは最大1.4$times$ FLOPsを減らし、Top-1の精度は他の方法よりも4.6%高い。
論文 参考訳(メタデータ) (2020-07-29T23:17:48Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z) - FarSee-Net: Real-Time Semantic Segmentation by Efficient Multi-scale
Context Aggregation and Feature Space Super-resolution [14.226301825772174]
Cascaded Factorized Atrous Space Pyramid Pooling (CF-ASPP) と呼ばれる新しい効率的なモジュールについて紹介する。
これは畳み込みニューラルネットワーク(CNN)のための軽量なカスケード構造であり、コンテキスト情報を効率的に活用する。
我々は1枚のNivida Titan X (Maxwell) GPUカードでCityscapesテストセットの84fpsで68.4% mIoUを達成した。
論文 参考訳(メタデータ) (2020-03-09T03:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。