論文の概要: BuildFormer: Automatic building extraction with vision transformer
- arxiv url: http://arxiv.org/abs/2111.15637v1
- Date: Mon, 29 Nov 2021 11:23:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 15:16:52.929295
- Title: BuildFormer: Automatic building extraction with vision transformer
- Title(参考訳): buildformer: vision transformerによる自動建物抽出
- Authors: Libo Wang, Yuechi Yang, Rui Li
- Abstract要約: 本稿では,超高解像度リモートセンシング画像,すなわちBuildFormerから建物を抽出するトランスフォーマーネットワークを提案する。
ResNetとの比較において,提案手法はWHU構築データセット上でmIoUの2%の改善を実現する。
- 参考スコア(独自算出の注目度): 7.577142111447444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building extraction from fine-resolution remote sensing images plays a vital
role in numerous geospatial applications, such as urban planning, population
statistic, economic assessment and disaster management. With the advancement of
deep learning technology, deep convolutional neural networks (DCNNs) have
dominated the automatic building extraction task for many years. However, the
local property of DCNNs limits the extraction of global information, weakening
the ability of the network for recognizing the building instance. Recently, the
Transformer comprises a hot topic in the computer vision domain and achieves
state-of-the-art performance in fundamental vision tasks, such as image
classification, semantic segmentation and object detection. Inspired by this,
in this paper, we propose a novel transformer-based network for extracting
buildings from fine-resolution remote sensing images, namely BuildFormer. In
Comparision with the ResNet, the proposed method achieves an improvement of 2%
in mIoU on the WHU building dataset.
- Abstract(参考訳): 精密なリモートセンシング画像からの建築物抽出は,都市計画,人口統計,経済評価,災害管理など,多くの地理空間応用において重要な役割を担っている。
深層学習技術の進歩により、深層畳み込みニューラルネットワーク(dcnn)は、長年にわたって自動建物抽出タスクを支配してきた。
しかし、dcnnの局所的な特性はグローバル情報の抽出を制限し、ビルディングインスタンスを認識するネットワークの能力を弱めている。
近年、トランスフォーマーはコンピュータビジョン領域においてホットトピックであり、画像分類、セマンティックセグメンテーション、オブジェクト検出といった基本的なビジョンタスクにおいて最先端のパフォーマンスを実現する。
そこで本稿では,超高解像度リモートセンシング画像であるbuildformerから建物を抽出するトランスフォーマネットワークを提案する。
ResNetとの比較において,提案手法はWHU構築データセット上でmIoUの2%の改善を実現する。
関連論文リスト
- NiNformer: A Network in Network Transformer with Token Mixing Generated
Gating Function [1.6317061277457001]
アテンションメカニズムはコンピュータビジョンでビジョントランスフォーマーViTとして利用され、その用途はビジョン領域の多くのタスクに拡張されている。
本稿では、通常のアテンション層をネットワーク内のネットワーク構造に置き換えることで、計算負担を軽減するための標準ViTブロックの代替として、新しい計算ブロックを提案する。
論文 参考訳(メタデータ) (2024-03-04T19:08:20Z) - TransY-Net:Learning Fully Transformer Networks for Change Detection of
Remote Sensing Images [64.63004710817239]
リモートセンシング画像CDのためのトランスフォーマーベース学習フレームワークTransY-Netを提案する。
グローバルな視点からの特徴抽出を改善し、ピラミッド方式で多段階の視覚的特徴を組み合わせる。
提案手法は,4つの光学式および2つのSAR画像CDベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-22T07:42:19Z) - Point-aware Interaction and CNN-induced Refinement Network for RGB-D
Salient Object Detection [95.84616822805664]
我々は,CNNによるトランスフォーマーアーキテクチャを導入し,ポイント・アウェア・インタラクションとCNNによるリファインメントを備えた新しいRGB-D SODネットワークを提案する。
トランスフォーマーがもたらすブロック効果とディテール破壊問題を自然に軽減するために,コンテンツリファインメントとサプリメントのためのCNNRユニットを設計する。
論文 参考訳(メタデータ) (2023-08-17T11:57:49Z) - Building Extraction from Remote Sensing Images via an Uncertainty-Aware
Network [18.365220543556113]
ビルの抽出は、都市計画や都市動態モニタリングなど、多くの応用において重要な役割を担っている。
本稿では,この問題を緩和するために,新規で簡単なUncertainty-Aware Network(UANet)を提案する。
その結果、提案したUANetは、他の最先端アルゴリズムよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-07-23T12:42:15Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - Dual-Tasks Siamese Transformer Framework for Building Damage Assessment [11.888964682446879]
トランスフォーマーによる損傷評価アーキテクチャ(DamFormer)の設計の試みについて述べる。
我々の知る限り、このような深層トランスフォーマーベースのネットワークがマルチテンポラルリモートセンシングの解釈タスクのために提案されたのは、これが初めてである。
論文 参考訳(メタデータ) (2022-01-26T14:11:16Z) - Efficient Hybrid Transformer: Learning Global-local Context for Urban
Sence Segmentation [11.237929167356725]
都市景観画像のセマンティックセグメンテーションのための効率的なハイブリッドトランスフォーマ(EHT)を提案する。
EHTはCNNとTransformerを利用して、グローバルなローカルコンテキストを学び、特徴表現を強化する。
提案されたEHTはUAVidテストセットで67.0% mIoUを達成し、他の軽量モデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2021-09-18T13:55:38Z) - PC-RGNN: Point Cloud Completion and Graph Neural Network for 3D Object
Detection [57.49788100647103]
LiDARベースの3Dオブジェクト検出は、自動運転にとって重要なタスクです。
現在のアプローチでは、遠方および閉ざされた物体の偏りと部分的な点雲に苦しむ。
本稿では,この課題を2つの解決法で解決する新しい二段階アプローチ,pc-rgnnを提案する。
論文 参考訳(メタデータ) (2020-12-18T18:06:43Z) - Ventral-Dorsal Neural Networks: Object Detection via Selective Attention [51.79577908317031]
我々はVDNet(Ventral-Dorsal Networks)と呼ばれる新しいフレームワークを提案する。
人間の視覚システムの構造にインスパイアされた我々は「Ventral Network」と「Dorsal Network」の統合を提案する。
実験の結果,提案手法は最先端の物体検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-15T23:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。