論文の概要: LEFormer: A Hybrid CNN-Transformer Architecture for Accurate Lake
Extraction from Remote Sensing Imagery
- arxiv url: http://arxiv.org/abs/2308.04397v1
- Date: Tue, 8 Aug 2023 17:01:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 11:55:30.894734
- Title: LEFormer: A Hybrid CNN-Transformer Architecture for Accurate Lake
Extraction from Remote Sensing Imagery
- Title(参考訳): LEFormer:リモートセンシング画像からの湖沼抽出のためのハイブリッドCNN変換器アーキテクチャ
- Authors: Ben Chen, Xuechao Zou, Yu Zhang, Jiayu Li, Kai Li, Pin Tao
- Abstract要約: 本稿では, LEFormer と呼ばれるCNN-Transformer アーキテクチャを, 正確な湖沼抽出のために提案する。
LEFormerには、CNNエンコーダ、Transformerエンコーダ、クロスエンコーダ融合、軽量デコーダの4つの主要なモジュールが含まれている。
表層水(SW)と清海・チベット高原湖(QTPL)の2つのデータセットにおけるLEFormerの性能と効率を評価する。
- 参考スコア(独自算出の注目度): 12.807826321699924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lake extraction from remote sensing imagery is challenging due to the complex
shapes of lakes and the presence of noise. Existing methods suffer from blurred
segmentation boundaries and poor foreground modeling. In this paper, we propose
a hybrid CNN-Transformer architecture, called LEFormer, for accurate lake
extraction. LEFormer contains four main modules: CNN encoder, Transformer
encoder, cross-encoder fusion, and lightweight decoder. The CNN encoder
recovers local spatial information and improves fine-scale details.
Simultaneously, the Transformer encoder captures long-range dependencies
between sequences of any length, allowing them to obtain global features and
context information better. Finally, a lightweight decoder is employed for mask
prediction. We evaluate the performance and efficiency of LEFormer on two
datasets, the Surface Water (SW) and the Qinghai-Tibet Plateau Lake (QTPL).
Experimental results show that LEFormer consistently achieves state-of-the-art
(SOTA) performance and efficiency on these two datasets, outperforming existing
methods. Specifically, LEFormer achieves 90.86% and 97.42% mIoU on the SW and
QTPL datasets with a parameter count of 3.61M, respectively, while being 20x
minor than the previous SOTA method.
- Abstract(参考訳): リモートセンシング画像からの湖の抽出は、湖の複雑な形状とノイズの存在のために困難である。
既存の手法は曖昧なセグメンテーション境界と貧弱なフォアグラウンドモデリングに悩まされている。
本稿では, LEFormerと呼ばれるCNN-Transformerハイブリッドアーキテクチャを, 正確な湖沼抽出のために提案する。
leformerにはcnnエンコーダ、トランスフォーマーエンコーダ、クロスエンコーダ融合、軽量デコーダの4つのモジュールが含まれている。
CNNエンコーダは、局所的な空間情報を復元し、微細な詳細を改善する。
同時にTransformerエンコーダは、任意の長さのシーケンス間の長距離依存関係をキャプチャし、グローバルな特徴とコンテキスト情報をよりよく取得する。
最後に、マスク予測に軽量デコーダを用いる。
本研究では,2つのデータセットである表層水 (SW) と清海・チベット高原湖 (QTPL) のLEFormerの性能と効率を評価する。
実験結果から,LEFormerはこれらの2つのデータセット上で,最新技術(SOTA)のパフォーマンスと効率を一貫して達成し,既存の手法よりも優れていることがわかった。
具体的には、LEFormerはSWデータセットとQTPLデータセットの90.86%と97.42% mIoUをそれぞれ3.61Mで達成し、従来のSOTA法より20倍小さい。
関連論文リスト
- MobileUNETR: A Lightweight End-To-End Hybrid Vision Transformer For Efficient Medical Image Segmentation [0.12499537119440242]
皮膚がんのセグメンテーションは、医療画像解析において重要な課題である。
MobileUNETRは、CNNとTransformerの両方のパフォーマンス制約を克服することを目指している。
MobileUNETRは300万のパラメータと1.3 GFLOPの計算複雑性で優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-09-04T20:23:37Z) - Efficient Transformer Encoders for Mask2Former-style models [57.54752243522298]
ECO-M2Fは、入力画像上に条件付きエンコーダ内の隠蔽層数を自己選択する戦略である。
提案手法は、性能を維持しながら、予測エンコーダの計算コストを削減する。
アーキテクチャ構成では柔軟性があり、セグメンテーションタスクを超えてオブジェクト検出まで拡張できる。
論文 参考訳(メタデータ) (2024-04-23T17:26:34Z) - LiteNeXt: A Novel Lightweight ConvMixer-based Model with Self-embedding Representation Parallel for Medical Image Segmentation [2.0901574458380403]
医用画像分割のための軽量だが効率的な新しいモデル LiteNeXt を提案する。
LiteNeXtは、少量のパラメータ (0.71M) とギガ浮動小数点演算 (0.42) でスクラッチから訓練されている。
論文 参考訳(メタデータ) (2024-04-04T01:59:19Z) - Low-Resolution Self-Attention for Semantic Segmentation [96.81482872022237]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - Cats: Complementary CNN and Transformer Encoders for Segmentation [13.288195115791758]
生体医用画像分割のための二重エンコーダを用いたモデルを提案する。
畳み込みエンコーダと変換器の情報を融合してデコーダに渡して結果を得る。
提案手法は,各タスクにトランスフォーマーと非変換器を併用した最先端モデルと比較して,ボード全体のDiceスコアを高くする。
論文 参考訳(メタデータ) (2022-08-24T14:25:11Z) - HiFormer: Hierarchical Multi-scale Representations Using Transformers
for Medical Image Segmentation [3.478921293603811]
HiFormerは、医用画像セグメンテーションのためのCNNとトランスフォーマーを効率的にブリッジする新しい方法である。
グローバルな特徴とローカルな特徴の微細融合を確保するため,エンコーダ・デコーダ構造のスキップ接続におけるDouble-Level Fusion (DLF)モジュールを提案する。
論文 参考訳(メタデータ) (2022-07-18T11:30:06Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Unifying Global-Local Representations in Salient Object Detection with Transformer [55.23033277636774]
我々は、視覚変換器という新しいアテンションベースのエンコーダを有能な物体検出に導入する。
非常に浅い層でのグローバルビューでは、トランスフォーマーエンコーダはより局所的な表現を保持する。
提案手法は,5つのベンチマークにおいて,他のFCN法およびトランスフォーマー法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-05T17:51:32Z) - Deep ensembles based on Stochastic Activation Selection for Polyp
Segmentation [82.61182037130406]
本研究は,大腸内視鏡検査における画像分割,特に正確なポリープ検出とセグメンテーションを扱う。
イメージセグメンテーションの基本アーキテクチャはエンコーダとデコーダで構成されている。
我々はデコーダのバックボーンを変更することで得られるDeepLabアーキテクチャのバリエーションを比較した。
論文 参考訳(メタデータ) (2021-04-02T02:07:37Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。