論文の概要: Semantic Segmentation for Urban-Scene Images
- arxiv url: http://arxiv.org/abs/2110.13813v1
- Date: Wed, 20 Oct 2021 08:31:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-01 06:21:35.406687
- Title: Semantic Segmentation for Urban-Scene Images
- Title(参考訳): 都市景観画像のセマンティックセグメンテーション
- Authors: Shorya Sharma
- Abstract要約: 私たちは、強力なベースラインモデルとしてResNet-101を使って、最先端モデルのDeepLabv3+を再実装しました。
都市・シーンの画像タスクにおける縦方向の空間的先行を考慮に入れたHANetを組み込んだ。
その結果, 2段階統合モデルでは, ベースラインモデルから平均値mIoU(Intersection-Over-Union)のスコアを徐々に改善することがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Urban-scene Image segmentation is an important and trending topic in computer
vision with wide use cases like autonomous driving [1]. Starting with the
breakthrough work of Long et al. [2] that introduces Fully Convolutional
Networks (FCNs), the development of novel architectures and practical uses of
neural networks in semantic segmentation has been expedited in the recent 5
years. Aside from seeking solutions in general model design for information
shrinkage due to pooling, urban-scene image itself has intrinsic features like
positional patterns [3]. Our project seeks an advanced and integrated solution
that specifically targets urban-scene image semantic segmentation among the
most novel approaches in the current field. We re-implement the cutting edge
model DeepLabv3+ [4] with ResNet-101 [5] backbone as our strong baseline model.
Based upon DeepLabv3+, we incorporate HANet [3] to account for the vertical
spatial priors in urban-scene image tasks. To boost up model efficiency and
performance, we further explore the Atrous Spatial Pooling (ASP) layer in
DeepLabv3+ and infuse a computational efficient variation called "Waterfall"
Atrous Spatial Pooling (WASP) [6] architecture in our model. We find that our
two-step integrated model improves the mean Intersection-Over-Union (mIoU)
score gradually from the baseline model. In particular, HANet successfully
identifies height-driven patterns and improves per-class IoU of common class
labels in urban scenario like fence and bus. We also demonstrate the
improvement of model efficiency with help of WASP in terms of computational
times during training and parameter reduction from the original ASPP module.
- Abstract(参考訳): 都市画像のセグメンテーションは、自動運転のような幅広いユースケースを持つコンピュータビジョンにおける重要かつトレンドのトピックである[1]。
long et alの画期的な仕事から始めます。
[2] 完全畳み込みネットワーク(fcns)の導入により,近年,意味セグメンテーションにおける新しいアーキテクチャの開発とニューラルネットワークの実用化が進められている。
プール化による情報収縮の一般モデル設計における解を求める以外は、都市景観画像自体が位置パターンのような本質的な特徴を持っている[3]。
本研究は,現在最も新しい手法である都市・地域イメージセマンティクスセグメンテーションを対象とする,先進的で統合的なソリューションを追求する。
最先端モデルdeeplabv3+[4]をresnet-101[5]バックボーンで再実装し,強力なベースラインモデルとした。
deeplabv3+ に基づいて,hanet [3] を都市間画像タスクにおける垂直的空間的優先順位として取り入れた。
モデル効率と性能を高めるため、deeplabv3+のatrous spatial pooling (asp)層をさらに探究し、このモデルで"waterfall" atrous spatial pooling (wasp) [6]アーキテクチャと呼ばれる計算効率のよいバリエーションを注入する。
2段階統合モデルでは,平均交点オーバー結合(miou)スコアをベースラインモデルから徐々に改善することが判明した。
特に、HANetは高さ駆動型パターンの識別に成功し、フェンスやバスといった都市シナリオにおいて、一般的なクラスラベルのクラスごとのIoUを改善する。
また、トレーニング中の計算時間と元のASPPモジュールからのパラメータ削減の観点から、WASPの助けを借りてモデル効率の向上を示す。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - SODAWideNet -- Salient Object Detection with an Attention augmented Wide
Encoder Decoder network without ImageNet pre-training [3.66237529322911]
我々は、ImageNet事前トレーニングなしで、Salient Object Detectionを直接訓練したスクラッチからニューラルネットワークを開発することを検討する。
本稿では,Salient Object Detection のためのエンコーダデコーダ型ネットワーク SODAWideNet を提案する。
SODAWideNet-S (3.03M) と SODAWideNet (9.03M) の2つの変種は、5つのデータセット上の最先端モデルと競合する性能を達成する。
論文 参考訳(メタデータ) (2023-11-08T16:53:44Z) - GraphCSPN: Geometry-Aware Depth Completion via Dynamic GCNs [49.55919802779889]
本稿では,グラフ畳み込みに基づく空間伝搬ネットワーク(GraphCSPN)を提案する。
本研究では、幾何学的表現学習において、畳み込みニューラルネットワークとグラフニューラルネットワークを相補的に活用する。
提案手法は,数段の伝搬ステップのみを使用する場合と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-19T17:56:03Z) - Unsupervised Deep Learning Meets Chan-Vese Model [77.24463525356566]
本稿では,Chan-Vese(CV)モデルとディープニューラルネットワークを統合した教師なしのイメージセグメンテーション手法を提案する。
私たちの基本的な考え方は、イメージを潜伏空間にマッピングするディープニューラルネットワークを適用して、画像空間における断片的な定数仮定の違反を軽減することです。
論文 参考訳(メタデータ) (2022-04-14T13:23:57Z) - Learning to Associate Every Segment for Video Panoptic Segmentation [123.03617367709303]
粗いセグメントレベルのマッチングと細かなピクセルレベルのマッチングを同時に学習する。
本研究では,Cityscapes-VPSおよびVIPERデータセット上で,フレーム単位の計算モデルにより,最先端の計算結果が得られることを示す。
論文 参考訳(メタデータ) (2021-06-17T13:06:24Z) - Third ArchEdge Workshop: Exploring the Design Space of Efficient Deep
Neural Networks [14.195694804273801]
本稿では,効率的な深層ニューラルネットワーク(DNN)の設計空間探索に関する最近の研究の概要を紹介する。
1)静的アーキテクチャ設計の効率と(2)動的モデル実行の効率の2つの側面を網羅する。
今後数年で研究の注目を集めるであろうオープンな質問をいくつか取り上げる。
論文 参考訳(メタデータ) (2020-11-22T01:56:46Z) - Deep Active Surface Models [60.027353171412216]
アクティブサーフェスモデルは複雑な3次元表面をモデル化するのに有用な長い歴史を持っているが、ディープネットワークと組み合わせて使用されるのはアクティブ・コンターのみである。
グラフ畳み込みネットワークにシームレスに統合して、洗練された滑らかさを強制できるレイヤを導入します。
論文 参考訳(メタデータ) (2020-11-17T18:48:28Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z) - Cars Can't Fly up in the Sky: Improving Urban-Scene Segmentation via
Height-driven Attention Networks [32.01932474622993]
本稿では,都市景観画像の本質的な特徴を活かし,ハイトドリブンアテンションネットワーク(HANet)と呼ばれる汎用アドオンモジュールを提案する。
画素の垂直位置に応じて情報的特徴やクラスを選択的に強調する。
提案手法は,ResNet-101をベースとしたセグメンテーションモデルにおいて,Cityscapesベンチマークにおける新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-03-11T06:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。