論文の概要: Efficient Context Integration through Factorized Pyramidal Learning for
Ultra-Lightweight Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2302.11785v1
- Date: Thu, 23 Feb 2023 05:34:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-24 16:19:56.674911
- Title: Efficient Context Integration through Factorized Pyramidal Learning for
Ultra-Lightweight Semantic Segmentation
- Title(参考訳): 超軽量意味セグメンテーションのための因子化ピラミッド学習による効率的な文脈統合
- Authors: Nadeem Atif, Saquib Mazhar, Debajit Sarma, M. K. Bhuyan and Shaik Rafi
Ahamed
- Abstract要約: 本稿では,FPL(Facterized Pyramidal Learning)モジュールを提案する。
空間ピラミッドを2つのステージに分解し,モジュール内での簡易かつ効率的な特徴融合により,悪名高いチェッカーボード効果を解決する。
FPLモジュールとFIRユニットをベースとしたFPLNetと呼ばれる超軽量リアルタイムネットワークを提案する。
- 参考スコア(独自算出の注目度): 1.0499611180329804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic segmentation is a pixel-level prediction task to classify each pixel
of the input image. Deep learning models, such as convolutional neural networks
(CNNs), have been extremely successful in achieving excellent performances in
this domain. However, mobile application, such as autonomous driving, demand
real-time processing of incoming stream of images. Hence, achieving efficient
architectures along with enhanced accuracy is of paramount importance. Since,
accuracy and model size of CNNs are intrinsically contentious in nature, the
challenge is to achieve a decent trade-off between accuracy and model size. To
address this, we propose a novel Factorized Pyramidal Learning (FPL) module to
aggregate rich contextual information in an efficient manner. On one hand, it
uses a bank of convolutional filters with multiple dilation rates which leads
to multi-scale context aggregation; crucial in achieving better accuracy. On
the other hand, parameters are reduced by a careful factorization of the
employed filters; crucial in achieving lightweight models. Moreover, we
decompose the spatial pyramid into two stages which enables a simple and
efficient feature fusion within the module to solve the notorious checkerboard
effect. We also design a dedicated Feature-Image Reinforcement (FIR) unit to
carry out the fusion operation of shallow and deep features with the
downsampled versions of the input image. This gives an accuracy enhancement
without increasing model parameters. Based on the FPL module and FIR unit, we
propose an ultra-lightweight real-time network, called FPLNet, which achieves
state-of-the-art accuracy-efficiency trade-off. More specifically, with only
less than 0.5 million parameters, the proposed network achieves 66.93\% and
66.28\% mIoU on Cityscapes validation and test set, respectively. Moreover,
FPLNet has a processing speed of 95.5 frames per second (FPS).
- Abstract(参考訳): セマンティックセグメンテーションは、入力画像の各ピクセルを分類するピクセルレベルの予測タスクである。
畳み込みニューラルネットワーク(CNN)のようなディープラーニングモデルは、この領域で優れたパフォーマンスを達成するために非常に成功した。
しかし,自動運転などのモバイルアプリケーションでは,画像ストリームのリアルタイム処理が要求される。
したがって、効率的なアーキテクチャの実現と精度の向上が最重要となる。
CNNの精度とモデルサイズは本質的に競合関係にあるため、精度とモデルサイズの間の適切なトレードオフを達成することが課題である。
そこで本稿では,豊かな文脈情報を効率的に集約する新しいfplモジュールを提案する。
一方、複数の拡張レートを持つ畳み込みフィルタのバンクを使用し、より正確な精度を達成するのに欠かせない、マルチスケールのコンテキストアグリゲーションをもたらす。
一方、パラメータは、採用フィルタの慎重な分解によって減少し、軽量モデルの実現に不可欠である。
さらに,空間ピラミッドを2段階に分解し,モジュール内での簡易かつ効率的な特徴融合により,悪名高いチェッカーボード効果を解決する。
また,入力画像のダウンサンプリング版を用いて,浅層・深部特徴の融合操作を行うために,FIR(Feature-Image Reinforcement)ユニットを設計した。
これにより、モデルパラメータを増加させずに精度が向上する。
fplモジュールとfirユニットに基づいて、最先端の精度と効率のトレードオフを実現する、fplnetと呼ばれる超軽量リアルタイムネットワークを提案する。
具体的には、0.5百万パラメータ未満で、Cityscapesの検証とテストセットで66.93\%と66.28\% mIoUを達成した。
さらに、FPLNetは処理速度が95.5フレーム/秒(FPS)である。
関連論文リスト
- LeRF: Learning Resampling Function for Adaptive and Efficient Image Interpolation [64.34935748707673]
最近のディープニューラルネットワーク(DNN)は、学習データ前処理を導入することで、パフォーマンスを著しく向上させた。
本稿では,DNNが学習した構造的前提と局所的連続仮定の両方を活かした学習再サンプリング(Learning Resampling, LeRF)を提案する。
LeRFは空間的に異なる再サンプリング関数を入力画像ピクセルに割り当て、ニューラルネットワークを用いてこれらの再サンプリング関数の形状を予測する。
論文 参考訳(メタデータ) (2024-07-13T16:09:45Z) - SparseSpikformer: A Co-Design Framework for Token and Weight Pruning in
Spiking Transformer [12.717450255837178]
スパイキングニューラルネットワーク(SNN)は低消費電力と高エネルギー効率の利点がある。
最も先進的なSNNであるSpikformerは、Transformerの自己保持モジュールとSNNを組み合わせて、優れたパフォーマンスを実現している。
本稿では,SparseSpikformerについて紹介する。SparseSpikformerはトークンとウェイトプルーニング技術を用いてSparseSpikformerのスパーシ性を実現するための共同設計フレームワークである。
論文 参考訳(メタデータ) (2023-11-15T09:22:52Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - RingMo-lite: A Remote Sensing Multi-task Lightweight Network with
CNN-Transformer Hybrid Framework [15.273362355253779]
本稿では,CNN-Transformerハイブリッドフレームワークを用いたRSマルチタスク軽量ネットワークであるRingMo-liteを提案する。
提案したRingMo-liteは、様々なRS画像解釈タスクにおいて60%以上のパラメータを削減し、ほとんどのシーンで平均精度は2%以下に低下し、類似サイズのモデルと比較してSOTA性能が向上する。
論文 参考訳(メタデータ) (2023-09-16T14:15:59Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Magic ELF: Image Deraining Meets Association Learning and Transformer [63.761812092934576]
本稿では,CNN と Transformer を統合化して,画像デライニングにおける学習のメリットを活用することを目的とする。
降雨除去と背景復旧を関連づける新しいマルチインプット・アテンション・モジュール (MAM) を提案する。
提案手法(ELF)は,最先端手法(MPRNet)を平均0.25dB向上させる。
論文 参考訳(メタデータ) (2022-07-21T12:50:54Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - FarSee-Net: Real-Time Semantic Segmentation by Efficient Multi-scale
Context Aggregation and Feature Space Super-resolution [14.226301825772174]
Cascaded Factorized Atrous Space Pyramid Pooling (CF-ASPP) と呼ばれる新しい効率的なモジュールについて紹介する。
これは畳み込みニューラルネットワーク(CNN)のための軽量なカスケード構造であり、コンテキスト情報を効率的に活用する。
我々は1枚のNivida Titan X (Maxwell) GPUカードでCityscapesテストセットの84fpsで68.4% mIoUを達成した。
論文 参考訳(メタデータ) (2020-03-09T03:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。