論文の概要: Cars Can't Fly up in the Sky: Improving Urban-Scene Segmentation via
Height-driven Attention Networks
- arxiv url: http://arxiv.org/abs/2003.05128v3
- Date: Tue, 7 Apr 2020 02:34:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 14:40:10.572075
- Title: Cars Can't Fly up in the Sky: Improving Urban-Scene Segmentation via
Height-driven Attention Networks
- Title(参考訳): 空を飛ぶ車は空を飛ぶことができない:高層アテンションネットワークによる都市空間のセグメンテーションの改善
- Authors: Sungha Choi, Joanne T. Kim, Jaegul Choo
- Abstract要約: 本稿では,都市景観画像の本質的な特徴を活かし,ハイトドリブンアテンションネットワーク(HANet)と呼ばれる汎用アドオンモジュールを提案する。
画素の垂直位置に応じて情報的特徴やクラスを選択的に強調する。
提案手法は,ResNet-101をベースとしたセグメンテーションモデルにおいて,Cityscapesベンチマークにおける新しい最先端性能を実現する。
- 参考スコア(独自算出の注目度): 32.01932474622993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper exploits the intrinsic features of urban-scene images and proposes
a general add-on module, called height-driven attention networks (HANet), for
improving semantic segmentation for urban-scene images. It emphasizes
informative features or classes selectively according to the vertical position
of a pixel. The pixel-wise class distributions are significantly different from
each other among horizontally segmented sections in the urban-scene images.
Likewise, urban-scene images have their own distinct characteristics, but most
semantic segmentation networks do not reflect such unique attributes in the
architecture. The proposed network architecture incorporates the capability
exploiting the attributes to handle the urban scene dataset effectively. We
validate the consistent performance (mIoU) increase of various semantic
segmentation models on two datasets when HANet is adopted. This extensive
quantitative analysis demonstrates that adding our module to existing models is
easy and cost-effective. Our method achieves a new state-of-the-art performance
on the Cityscapes benchmark with a large margin among ResNet-101 based
segmentation models. Also, we show that the proposed model is coherent with the
facts observed in the urban scene by visualizing and interpreting the attention
map. Our code and trained models are publicly available at
https://github.com/shachoi/HANet
- Abstract(参考訳): 本稿では,都市シーン画像の特徴を生かして,都市シーン画像の意味セグメンテーションを改善するために,ハイプ駆動アテンションネットワーク(hanet)と呼ばれる一般的なアドオンモジュールを提案する。
画素の垂直位置に応じて情報的特徴やクラスを選択的に強調する。
都市景観画像の水平区分け区間では,画素単位のクラス分布が著しく異なる。
同様に、都市シーンの画像には独自の特徴があるが、ほとんどのセマンティックセグメンテーションネットワークは、そのようなユニークな特徴を反映していない。
提案するネットワークアーキテクチャでは,都市景観データセットを効果的に扱う属性を活用できる。
HANetを採用した場合の2つのデータセット上での様々なセマンティックセグメンテーションモデルの一貫性性能(mIoU)の向上を検証する。
この広範な定量的分析は、既存のモデルへのモジュールの追加が簡単で費用対効果が高いことを示している。
提案手法は,ResNet-101に基づくセグメンテーションモデルにおいて,Cityscapesベンチマークにおける新しい最先端性能を実現する。
また,提案手法は,アテンションマップの可視化と解釈によって都市景観で観測された事実と一致していることを示す。
私たちのコードとトレーニングされたモデルはhttps://github.com/shachoi/HANetで公開されています。
関連論文リスト
- Multi-scale Semantic Prior Features Guided Deep Neural Network for Urban Street-view Image [1.4473649585131072]
本稿では,ストリートビュー画像の描画のための新しいディープニューラルネットワーク(DNN)を提案する。
大規模な事前学習モデルからリッチなセマンティックプリプロンプトを学習するためにセマンティックプリプロンプトが導入された。
ApolloscapesとCityscapesデータセットの実験は、最先端の方法よりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-05-17T03:02:18Z) - Rethinking Interactive Image Segmentation with Low Latency, High Quality, and Diverse Prompts [68.86537322287474]
多様なプロンプトを持つ低レイテンシで高品質な対話的セグメンテーションは、スペシャリストやジェネラリストモデルでは難しい。
我々は、低レイテンシ、高品質、多様なプロンプトサポートを提供する次世代インタラクティブセグメンテーションアプローチであるSegNextを提案する。
本手法は,HQSeg-44KとDAVISにおいて,定量的かつ定性的に,最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-03-31T17:02:24Z) - Self-attention on Multi-Shifted Windows for Scene Segmentation [14.47974086177051]
マルチスケール画像ウィンドウにおける自己注意の有効利用について検討し,視覚的特徴を学習する。
本稿では,これらの特徴マップを集約して,高密度予測のための特徴表現をデコードする3つの戦略を提案する。
我々のモデルは、4つの公開シーンセグメンテーションデータセットで非常に有望な性能を達成する。
論文 参考訳(メタデータ) (2022-07-10T07:36:36Z) - Distilling Ensemble of Explanations for Weakly-Supervised Pre-Training
of Image Segmentation Models [54.49581189337848]
本稿では,分類データセットに基づく画像分割モデルのエンドツーエンド事前学習を可能にする手法を提案する。
提案手法は重み付きセグメンテーション学習法を利用して,重み付きセグメンテーションネットワークを事前訓練する。
実験の結果,ImageNetにソースデータセットとしてPSSLを伴って提案されたエンドツーエンドの事前トレーニング戦略が,さまざまなセグメンテーションモデルの性能向上に成功していることがわかった。
論文 参考訳(メタデータ) (2022-07-04T13:02:32Z) - Semantic Segmentation for Urban-Scene Images [0.0]
私たちは、強力なベースラインモデルとしてResNet-101を使って、最先端モデルのDeepLabv3+を再実装しました。
都市・シーンの画像タスクにおける縦方向の空間的先行を考慮に入れたHANetを組み込んだ。
その結果, 2段階統合モデルでは, ベースラインモデルから平均値mIoU(Intersection-Over-Union)のスコアを徐々に改善することがわかった。
論文 参考訳(メタデータ) (2021-10-20T08:31:26Z) - Learning to Associate Every Segment for Video Panoptic Segmentation [123.03617367709303]
粗いセグメントレベルのマッチングと細かなピクセルレベルのマッチングを同時に学習する。
本研究では,Cityscapes-VPSおよびVIPERデータセット上で,フレーム単位の計算モデルにより,最先端の計算結果が得られることを示す。
論文 参考訳(メタデータ) (2021-06-17T13:06:24Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Naive-Student: Leveraging Semi-Supervised Learning in Video Sequences
for Urban Scene Segmentation [57.68890534164427]
本研究では,未ラベル映像シーケンスと追加画像の半教師付き学習を利用して,都市景観セグメンテーションの性能を向上させることができるかどうかを問う。
我々は単にラベルのないデータに対して擬似ラベルを予測し、人間の注釈付きデータと擬似ラベル付きデータの両方でその後のモデルを訓練する。
我々のNaive-Studentモデルは、このような単純で効果的な反復的半教師付き学習で訓練され、3つのCityscapesベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-05-20T18:00:05Z) - Evolution of Image Segmentation using Deep Convolutional Neural Network:
A Survey [0.0]
我々はCNNに基づくセマンティックとインスタンスセグメンテーションの両方の進化を垣間見る。
我々は、最先端のパン光学セグメンテーションモデルを垣間見せた。
論文 参考訳(メタデータ) (2020-01-13T06:07:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。