論文の概要: Swin transformers make strong contextual encoders for VHR image road
extraction
- arxiv url: http://arxiv.org/abs/2201.03178v1
- Date: Mon, 10 Jan 2022 06:05:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-11 16:02:04.820089
- Title: Swin transformers make strong contextual encoders for VHR image road
extraction
- Title(参考訳): swinトランスフォーマはvhr画像道路抽出のための強力なコンテクストエンコーダを作る
- Authors: Tao Chen, Daguang Jiang, Ruirui Li
- Abstract要約: 我々は,Swin Transformerのグローバルコンテキストモデリング機能とResNetのローカル特徴抽出機能を利用した,新しいデュアルブランチ符号化ブロックCoSwinを設計する。
また、文脈に依存しないノイズを除去し、詳細を再構築できるCFilterというコンテキスト誘導フィルタブロックを提案する。
マサチューセッツとCHN6-CUGデータセットの実験により、提案手法は、F1、IoU、OAのメトリクスにおいて、他の最先端手法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 12.35150174854907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Significant progress has been made in automatic road extra-ction or
segmentation based on deep learning, but there are still margins to improve in
terms of the completeness and connectivity of the results. This is mainly due
to the challenges of large intra-class variances, ambiguous inter-class
distinctions, and occlusions from shadows, trees, and buildings. Therefore,
being able to perceive global context and model geometric information is
essential to further improve the accuracy of road segmentation. In this paper,
we design a novel dual-branch encoding block CoSwin which exploits the
capability of global context modeling of Swin Transformer and that of local
feature extraction of ResNet. Furthermore, we also propose a context-guided
filter block named CFilter, which can filter out context-independent noisy
features for better reconstructing of the details. We use CoSwin and CFilter in
a U-shaped network architecture. Experiments on Massachusetts and CHN6-CUG
datasets show that the proposed method outperforms other state-of-the-art
methods on the metrics of F1, IoU, and OA. Further analysis reveals that the
improvement in accuracy comes from better integrity and connectivity of
segmented roads.
- Abstract(参考訳): ディープラーニングに基づく自動道路拡張やセグメンテーションでは大きな進歩があったが、結果の完全性や接続性に関してはまだ改善の余地がある。
これは主に、大きなクラス内ばらつき、あいまいなクラス間区別、そして影、木、建物からのオクルージョンの挑戦によるものである。
したがって,道路分割の精度を高めるためには,グローバルな文脈と幾何学的情報をモデル化できることが不可欠である。
本稿では,swinトランスフォーマのグローバルコンテキストモデリングとresnetの局所的特徴抽出の機能を活用した,新しいデュアルブランチ符号化ブロックコスウィンを設計した。
さらに,文脈に依存しない雑音の特徴を除去し,詳細を再構築することのできる,文脈誘導型フィルタブロックCFilterを提案する。
私たちは、U字型ネットワークアーキテクチャでCoSwinとCFilterを使用します。
マサチューセッツとCHN6-CUGデータセットの実験により、提案手法は、F1、IoU、OAのメトリクスにおいて、他の最先端手法よりも優れていることが示された。
さらなる分析により、精度の向上は、セグメント道路の整合性と接続性の向上によってもたらされることが明らかになった。
関連論文リスト
- Interaction-Guided Two-Branch Image Dehazing Network [1.26404863283601]
Image Dehazingは、汚れた画像からクリーンなイメージを復元することを目的としている。
CNNとTransformerは、局所的およびグローバルな特徴抽出において例外的な性能を示した。
本稿では,CNNとTransformerコンポーネントをインタラクティブにガイドする,新しいデュアルブランチ画像デハージングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-14T03:21:56Z) - SwinV2DNet: Pyramid and Self-Supervision Compounded Feature Learning for
Remote Sensing Images Change Detection [12.727650696327878]
本稿では,変換器とCNNの利点を継承するために,エンドツーエンドの複合ネットワークSwinV2DNetを提案する。
これは、密に接続されたSwin V2バックボーンを通じて、変更関係の機能をキャプチャする。
CNNブランチを通じて、低レベルの事前変更と後変更の機能を提供する。
論文 参考訳(メタデータ) (2023-08-22T03:31:52Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - ConvFormer: Combining CNN and Transformer for Medical Image Segmentation [17.88894109620463]
医用画像分割のための階層型CNNとTransformerハイブリッドアーキテクチャであるConvFormerを提案する。
ゼロからトレーニングされたConvFormerは、さまざまなCNNやTransformerベースのアーキテクチャより優れ、最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-11-15T23:11:22Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - Transformer-Guided Convolutional Neural Network for Cross-View
Geolocalization [20.435023745201878]
本稿ではトランスフォーマー誘導型畳み込みニューラルネットワーク(TransGCNN)アーキテクチャを提案する。
我々のTransGCNNは、入力画像からCNNのバックボーン抽出特徴マップと、グローバルコンテキストをモデル化するTransformerヘッドで構成される。
CVUSAとCVACT_valでそれぞれ94.12%,84.92%の精度を達成した。
論文 参考訳(メタデータ) (2022-04-21T08:46:41Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Semi-Supervised Vision Transformers [76.83020291497895]
半教師付き画像分類のための視覚変換器の訓練について検討する。
半教師付き ImageNet 設定では,ビジョントランスフォーマーの性能が良くない。
CNNは小さなラベル付きデータ構造において優れた結果を得る。
論文 参考訳(メタデータ) (2021-11-22T09:28:13Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。