論文の概要: Transformer Meets Convolution: A Bilateral Awareness Net-work for
Semantic Segmentation of Very Fine Resolution Ur-ban Scene Images
- arxiv url: http://arxiv.org/abs/2106.12413v1
- Date: Wed, 23 Jun 2021 13:57:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-24 15:20:21.081737
- Title: Transformer Meets Convolution: A Bilateral Awareness Net-work for
Semantic Segmentation of Very Fine Resolution Ur-ban Scene Images
- Title(参考訳): Transformer Meets Convolution: Very Fine Resolution Ur-ban Scene Imageのセマンティックセグメンテーションのためのバイラテラルアウェアネスネットワーク
- Authors: Libo Wang, Rui Li, Dongzhi Wang, Chenxi Duan, Teng Wang, Xiaoliang
Meng
- Abstract要約: 本稿では,依存経路とテクスチャパスを含む相互認知ネットワーク(BANet)を提案する。
BANetは、VFR画像の長距離関係と細かな詳細をキャプチャする。
3つの大規模都市景観画像セグメンテーションデータセット(ISPRS Vaihingen データセット、ISPRS Potsdam データセット、UAVid データセット)で実施された実験は、BANetの有効性を実証している。
- 参考スコア(独自算出の注目度): 6.460167724233707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic segmentation from very fine resolution (VFR) urban scene images
plays a significant role in several application scenarios including autonomous
driving, land cover classification, and urban planning, etc. However, the
tremendous details contained in the VFR image severely limit the potential of
the existing deep learning approaches. More seriously, the considerable
variations in scale and appearance of objects further deteriorate the
representational capacity of those se-mantic segmentation methods, leading to
the confusion of adjacent objects. Addressing such is-sues represents a
promising research field in the remote sensing community, which paves the way
for scene-level landscape pattern analysis and decision making. In this
manuscript, we pro-pose a bilateral awareness network (BANet) which contains a
dependency path and a texture path to fully capture the long-range
relationships and fine-grained details in VFR images. Specif-ically, the
dependency path is conducted based on the ResT, a novel Transformer backbone
with memory-efficient multi-head self-attention, while the texture path is
built on the stacked convo-lution operation. Besides, using the linear
attention mechanism, a feature aggregation module (FAM) is designed to
effectively fuse the dependency features and texture features. Extensive
experiments conducted on the three large-scale urban scene image segmentation
datasets, i.e., ISPRS Vaihingen dataset, ISPRS Potsdam dataset, and UAVid
dataset, demonstrate the effective-ness of our BANet. Specifically, a 64.6%
mIoU is achieved on the UAVid dataset.
- Abstract(参考訳): 超微細解像度(vfr)からのセマンティックセグメンテーション 都市景観画像は、自動運転、土地被覆分類、都市計画など、いくつかのアプリケーションシナリオにおいて重要な役割を果たす。
しかし、VFR画像に含まれる膨大な詳細は、既存のディープラーニングアプローチの可能性を著しく制限している。
さらに、スケールや物体の出現のかなりの変化は、これらのセマンティックセグメンテーション法の表現能力をさらに悪化させ、隣接する物体の混乱につながった。
このような課題に対処することは、シーンレベルの景観パターン分析と意思決定の道を開くリモートセンシングコミュニティにおける有望な研究分野である。
本稿では,VFR画像の長距離関係と細粒度をフルに捉えるために,依存経路とテクスチャパスを含む両側認知ネットワーク(BANet)を提案する。
特に、依存関係パスはメモリ効率の良いマルチヘッド自己アテンションを備えた新しいトランスフォーマーバックボーンであるResTに基づいて実行され、テクスチャパスはスタック化されたコンボサーション操作上に構築される。
さらに、線形アテンション機構を使用することで、依存性機能とテクスチャ機能を効果的に融合する機能アグリゲーションモジュール(FAM)が設計されている。
大規模都市景観画像セグメンテーションデータセット(ISPRS Vaihingen データセット,ISPRS Potsdam データセット,UAVid データセット)で実施された大規模な実験により,BANet の有効性が示された。
具体的には、UAVidデータセット上で64.6%のmIoUが達成される。
関連論文リスト
- Rotated Multi-Scale Interaction Network for Referring Remote Sensing
Image Segmentation [66.31941110777734]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Hi-ResNet: A High-Resolution Remote Sensing Network for Semantic
Segmentation [7.216053041550996]
高分解能リモートセンシング(HRS)セマンティックセマンティクスは、高分解能カバレッジ領域からキーオブジェクトを抽出する。
HRS画像内の同じカテゴリのオブジェクトは、多様な地理的環境におけるスケールと形状の顕著な違いを示す。
効率的なネットワーク構造を持つ高分解能リモートセンシングネットワーク(Hi-ResNet)を提案する。
論文 参考訳(メタデータ) (2023-05-22T03:58:25Z) - Hierarchical Disentanglement-Alignment Network for Robust SAR Vehicle
Recognition [18.38295403066007]
HDANetは機能障害とアライメントを統合フレームワークに統合する。
提案手法は,MSTARデータセットにおいて,9つの動作条件にまたがる顕著なロバスト性を示す。
論文 参考訳(メタデータ) (2023-04-07T09:11:29Z) - Progressively Dual Prior Guided Few-shot Semantic Segmentation [57.37506990980975]
Few-shotのセマンティックセマンティックセマンティクスタスクは、いくつかのアノテーション付きサポートサンプルを使用して、クエリイメージのセマンティクスを実行することを目的としている。
本稿では,先進的に2重にガイドされた数発のセマンティックセマンティックセグメンテーションネットワークを提案する。
論文 参考訳(メタデータ) (2022-11-20T16:19:47Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Aerial Images Meet Crowdsourced Trajectories: A New Approach to Robust
Road Extraction [110.61383502442598]
我々は、Cross-Modal Message Propagation Network (CMMPNet)と呼ばれる新しいニューラルネットワークフレームワークを紹介する。
CMMPNetは、モダリティ固有の表現学習のための2つのディープオートエンコーダと、クロスモーダル表現洗練のためのテーラー設計のデュアルエンハンスメントモジュールで構成されている。
実世界の3つのベンチマーク実験により, CMMPNetによる堅牢な道路抽出の有効性が示された。
論文 参考訳(メタデータ) (2021-11-30T04:30:10Z) - Learning to Aggregate Multi-Scale Context for Instance Segmentation in
Remote Sensing Images [28.560068780733342]
特徴抽出のプロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。
提案モデルは,高密度特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),階層的関心抽出器(HRoIE)の3つの軽量プラグアンドプレイモジュールを利用する。
論文 参考訳(メタデータ) (2021-11-22T08:55:25Z) - Looking Outside the Window: Wider-Context Transformer for the Semantic
Segmentation of High-Resolution Remote Sensing Images [18.161847218988964]
高解像度(HR)リモートセンシング画像(RSI)のセマンティックセグメンテーションのためのワイド・コンテキスト・ネットワーク(WiCNet)を提案する。
WiCNetでは、従来の特徴抽出ネットワークとは別に、より大きな画像領域におけるコンテキスト情報を明示的にモデル化する追加のコンテキストブランチが設計されている。
この2つの分岐間の情報はコンテキスト変換器を通して伝達されるが、これは長距離コンテキスト相関をモデル化するためのビジョン変換器から派生した新しい設計である。
論文 参考訳(メタデータ) (2021-06-29T23:41:54Z) - High-resolution Depth Maps Imaging via Attention-based Hierarchical
Multi-modal Fusion [84.24973877109181]
誘導DSRのための新しい注意に基づく階層型マルチモーダル融合ネットワークを提案する。
本手法は,再現精度,動作速度,メモリ効率の点で最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:28:33Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。