論文の概要: Swin Transformer coupling CNNs Makes Strong Contextual Encoders for VHR
Image Road Extraction
- arxiv url: http://arxiv.org/abs/2201.03178v2
- Date: Sun, 28 May 2023 06:57:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 04:39:08.156340
- Title: Swin Transformer coupling CNNs Makes Strong Contextual Encoders for VHR
Image Road Extraction
- Title(参考訳): VHR画像道路抽出のための強いコンテクストエンコーダを実現するスイニングトランスフォーマー結合CNN
- Authors: Tao Chen, Yiran Liu, Haoyu Jiang, Ruirui Li
- Abstract要約: 本稿では,ResNetとSwinTransformerを組み合わせた2分岐ネットワークブロックConSwinを提案する。
提案手法は,マサチューセッツおよびCHN6-CUGデータセットの精度,IOU,F1インジケータにおいて,最先端の手法よりも優れている。
- 参考スコア(独自算出の注目度): 11.308473487002782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurately segmenting roads is challenging due to substantial intra-class
variations, indistinct inter-class distinctions, and occlusions caused by
shadows, trees, and buildings. To address these challenges, attention to
important texture details and perception of global geometric contextual
information are essential. Recent research has shown that CNN-Transformer
hybrid structures outperform using CNN or Transformer alone. While CNN excels
at extracting local detail features, the Transformer naturally perceives global
contextual information. In this paper, we propose a dual-branch network block
named ConSwin that combines ResNet and SwinTransformers for road extraction
tasks. This ConSwin block harnesses the strengths of both approaches to better
extract detailed and global features. Based on ConSwin, we construct an
hourglass-shaped road extraction network and introduce two novel connection
structures to better transmit texture and structural detail information to the
decoder. Our proposed method outperforms state-of-the-art methods on both the
Massachusetts and CHN6-CUG datasets in terms of overall accuracy, IOU, and F1
indicators. Additional experiments validate the effectiveness of our proposed
module, while visualization results demonstrate its ability to obtain better
road representations.
- Abstract(参考訳): 正確なセグメンテーション道路は、クラス内の変化、クラス間の違い、シャドウ、木、建物によって引き起こされる閉塞などにより困難である。
これらの課題に対処するためには、重要なテクスチャの詳細への注意とグローバルな幾何学的文脈情報の認識が不可欠である。
近年の研究では、CNN-Transformerハイブリッド構造は、CNNまたはTransformer単独でより優れていることが示されている。
cnnは局所的な細部特徴の抽出に優れているが、transformerは自然にグローバルな文脈情報を知覚する。
本稿では,道路抽出タスクにresnetとswintransformersを組み合わせた2分岐ネットワークブロックconswinを提案する。
このConSwinブロックは、両方のアプローチの長所を利用して、より詳細な特徴とグローバルな特徴を抽出する。
コンスウィンに基づき,砂時計型道路抽出ネットワークを構築し,テクスチャや構造詳細情報をデコーダに伝達する2つの新しい接続構造を導入する。
提案手法は,マサチューセッツおよびCHN6-CUGデータセットの精度,IOU,F1インジケータにおいて,最先端の手法よりも優れている。
さらに,提案モジュールの有効性を検証し,可視化の結果から道路の表現性の向上が示された。
関連論文リスト
- Interaction-Guided Two-Branch Image Dehazing Network [1.26404863283601]
Image Dehazingは、汚れた画像からクリーンなイメージを復元することを目的としている。
CNNとTransformerは、局所的およびグローバルな特徴抽出において例外的な性能を示した。
本稿では,CNNとTransformerコンポーネントをインタラクティブにガイドする,新しいデュアルブランチ画像デハージングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-14T03:21:56Z) - SwinV2DNet: Pyramid and Self-Supervision Compounded Feature Learning for
Remote Sensing Images Change Detection [12.727650696327878]
本稿では,変換器とCNNの利点を継承するために,エンドツーエンドの複合ネットワークSwinV2DNetを提案する。
これは、密に接続されたSwin V2バックボーンを通じて、変更関係の機能をキャプチャする。
CNNブランチを通じて、低レベルの事前変更と後変更の機能を提供する。
論文 参考訳(メタデータ) (2023-08-22T03:31:52Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - ConvFormer: Combining CNN and Transformer for Medical Image Segmentation [17.88894109620463]
医用画像分割のための階層型CNNとTransformerハイブリッドアーキテクチャであるConvFormerを提案する。
ゼロからトレーニングされたConvFormerは、さまざまなCNNやTransformerベースのアーキテクチャより優れ、最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-11-15T23:11:22Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - Transformer-Guided Convolutional Neural Network for Cross-View
Geolocalization [20.435023745201878]
本稿ではトランスフォーマー誘導型畳み込みニューラルネットワーク(TransGCNN)アーキテクチャを提案する。
我々のTransGCNNは、入力画像からCNNのバックボーン抽出特徴マップと、グローバルコンテキストをモデル化するTransformerヘッドで構成される。
CVUSAとCVACT_valでそれぞれ94.12%,84.92%の精度を達成した。
論文 参考訳(メタデータ) (2022-04-21T08:46:41Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Semi-Supervised Vision Transformers [76.83020291497895]
半教師付き画像分類のための視覚変換器の訓練について検討する。
半教師付き ImageNet 設定では,ビジョントランスフォーマーの性能が良くない。
CNNは小さなラベル付きデータ構造において優れた結果を得る。
論文 参考訳(メタデータ) (2021-11-22T09:28:13Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。