論文の概要: LEFormer: A Hybrid CNN-Transformer Architecture for Accurate Lake
Extraction from Remote Sensing Imagery
- arxiv url: http://arxiv.org/abs/2308.04397v2
- Date: Mon, 8 Jan 2024 14:50:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 23:26:37.906291
- Title: LEFormer: A Hybrid CNN-Transformer Architecture for Accurate Lake
Extraction from Remote Sensing Imagery
- Title(参考訳): LEFormer:リモートセンシング画像からの湖沼抽出のためのハイブリッドCNN変換器アーキテクチャ
- Authors: Ben Chen, Xuechao Zou, Yu Zhang, Jiayu Li, Kai Li, Junliang Xing, Pin
Tao
- Abstract要約: 本稿では, LEFormer と呼ばれるCNN-Transformer アーキテクチャを用いて, 正確な湖沼抽出を行う。
LeFormerにはCNNエンコーダ、Transformerエンコーダ、クロスエンコーダの3つの主要なモジュールが含まれている。
LeFormerは、Surface WaterとQinghai-Tibet Plateau Lakeデータセットの最先端のパフォーマンスと効率を一貫して達成している。
- 参考スコア(独自算出の注目度): 21.376854477468793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lake extraction from remote sensing images is challenging due to the complex
lake shapes and inherent data noises. Existing methods suffer from blurred
segmentation boundaries and poor foreground modeling. This paper proposes a
hybrid CNN-Transformer architecture, called LEFormer, for accurate lake
extraction. LEFormer contains three main modules: CNN encoder, Transformer
encoder, and cross-encoder fusion. The CNN encoder effectively recovers local
spatial information and improves fine-scale details. Simultaneously, the
Transformer encoder captures long-range dependencies between sequences of any
length, allowing them to obtain global features and context information. The
cross-encoder fusion module integrates the local and global features to improve
mask prediction. Experimental results show that LEFormer consistently achieves
state-of-the-art performance and efficiency on the Surface Water and the
Qinghai-Tibet Plateau Lake datasets. Specifically, LEFormer achieves 90.86% and
97.42% mIoU on two datasets with a parameter count of 3.61M, respectively,
while being 20 minor than the previous best lake extraction method. The source
code is available at https://github.com/BastianChen/LEFormer.
- Abstract(参考訳): リモートセンシング画像からの湖の抽出は、複雑な湖の形状と固有のデータノイズのために困難である。
既存の手法は曖昧なセグメンテーション境界と貧弱なフォアグラウンドモデリングに悩まされている。
本稿では, LEFormer と呼ばれるCNN-Transformer アーキテクチャを用いて, 正確な湖沼抽出を行う。
LEFormerにはCNNエンコーダ、Transformerエンコーダ、クロスエンコーダの3つの主要なモジュールが含まれている。
CNNエンコーダは、局所空間情報を効果的に回復し、微細な詳細を改善する。
同時にTransformerエンコーダは、任意の長さのシーケンス間の長距離依存関係をキャプチャし、グローバルな特徴とコンテキスト情報を取得する。
cross-encoder fusionモジュールは、ローカル機能とグローバル機能を統合し、マスク予測を改善する。
実験の結果,LEFormerは表層水と清海・チベット高原湖のデータセット上で,最先端の性能と効率を一貫して達成していることがわかった。
具体的には、LEFormerはパラメータ数3.61Mの2つのデータセットに対して90.86%と97.42% mIoUを達成し、以前の最良の湖の抽出方法よりも20マイナーである。
ソースコードはhttps://github.com/BastianChen/LEFormerで入手できる。
関連論文リスト
- MobileUNETR: A Lightweight End-To-End Hybrid Vision Transformer For Efficient Medical Image Segmentation [0.12499537119440242]
皮膚がんのセグメンテーションは、医療画像解析において重要な課題である。
MobileUNETRは、CNNとTransformerの両方のパフォーマンス制約を克服することを目指している。
MobileUNETRは300万のパラメータと1.3 GFLOPの計算複雑性で優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-09-04T20:23:37Z) - Efficient Transformer Encoders for Mask2Former-style models [57.54752243522298]
ECO-M2Fは、入力画像上に条件付きエンコーダ内の隠蔽層数を自己選択する戦略である。
提案手法は、性能を維持しながら、予測エンコーダの計算コストを削減する。
アーキテクチャ構成では柔軟性があり、セグメンテーションタスクを超えてオブジェクト検出まで拡張できる。
論文 参考訳(メタデータ) (2024-04-23T17:26:34Z) - LiteNeXt: A Novel Lightweight ConvMixer-based Model with Self-embedding Representation Parallel for Medical Image Segmentation [2.0901574458380403]
医用画像分割のための軽量だが効率的な新しいモデル LiteNeXt を提案する。
LiteNeXtは、少量のパラメータ (0.71M) とギガ浮動小数点演算 (0.42) でスクラッチから訓練されている。
論文 参考訳(メタデータ) (2024-04-04T01:59:19Z) - Low-Resolution Self-Attention for Semantic Segmentation [96.81482872022237]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - Cats: Complementary CNN and Transformer Encoders for Segmentation [13.288195115791758]
生体医用画像分割のための二重エンコーダを用いたモデルを提案する。
畳み込みエンコーダと変換器の情報を融合してデコーダに渡して結果を得る。
提案手法は,各タスクにトランスフォーマーと非変換器を併用した最先端モデルと比較して,ボード全体のDiceスコアを高くする。
論文 参考訳(メタデータ) (2022-08-24T14:25:11Z) - HiFormer: Hierarchical Multi-scale Representations Using Transformers
for Medical Image Segmentation [3.478921293603811]
HiFormerは、医用画像セグメンテーションのためのCNNとトランスフォーマーを効率的にブリッジする新しい方法である。
グローバルな特徴とローカルな特徴の微細融合を確保するため,エンコーダ・デコーダ構造のスキップ接続におけるDouble-Level Fusion (DLF)モジュールを提案する。
論文 参考訳(メタデータ) (2022-07-18T11:30:06Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Unifying Global-Local Representations in Salient Object Detection with Transformer [55.23033277636774]
我々は、視覚変換器という新しいアテンションベースのエンコーダを有能な物体検出に導入する。
非常に浅い層でのグローバルビューでは、トランスフォーマーエンコーダはより局所的な表現を保持する。
提案手法は,5つのベンチマークにおいて,他のFCN法およびトランスフォーマー法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-05T17:51:32Z) - Deep ensembles based on Stochastic Activation Selection for Polyp
Segmentation [82.61182037130406]
本研究は,大腸内視鏡検査における画像分割,特に正確なポリープ検出とセグメンテーションを扱う。
イメージセグメンテーションの基本アーキテクチャはエンコーダとデコーダで構成されている。
我々はデコーダのバックボーンを変更することで得られるDeepLabアーキテクチャのバリエーションを比較した。
論文 参考訳(メタデータ) (2021-04-02T02:07:37Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。