論文の概要: LightFormer: A lightweight and efficient decoder for remote sensing image segmentation
- arxiv url: http://arxiv.org/abs/2504.10834v1
- Date: Tue, 15 Apr 2025 03:25:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:10:03.233205
- Title: LightFormer: A lightweight and efficient decoder for remote sensing image segmentation
- Title(参考訳): LightFormer: リモートセンシング画像セグメンテーションのための軽量で効率的なデコーダ
- Authors: Sihang Chen, Lijun Yun, Ze Liu, JianFeng Zhu, Jie Chen, Hui Wang, Yueping Nie,
- Abstract要約: 構造化されていないターゲットを含む時間クリティカルなタスクのための軽量デコーダであるLightFormerを紹介します。
LightFormerは、チャネル処理上に構築された機能融合および改良モジュールと、学習可能なゲーティング機構を使用して、マルチスケール、マルチレンジ情報を効率的に集約する。
ISPRS Vaihingenベンチマークでは、LightFormerはGLFFNetのmIoUの99.9%を獲得し、FLOPの14.7%とパラメータの15.9%しか必要としていない。
- 参考スコア(独自算出の注目度): 12.003743832147403
- License:
- Abstract: Deep learning techniques have achieved remarkable success in the semantic segmentation of remote sensing images and in land-use change detection. Nevertheless, their real-time deployment on edge platforms remains constrained by decoder complexity. Herein, we introduce LightFormer, a lightweight decoder for time-critical tasks that involve unstructured targets, such as disaster assessment, unmanned aerial vehicle search-and-rescue, and cultural heritage monitoring. LightFormer employs a feature-fusion and refinement module built on channel processing and a learnable gating mechanism to aggregate multi-scale, multi-range information efficiently, which drastically curtails model complexity. Furthermore, we propose a spatial information selection module (SISM) that integrates long-range attention with a detail preservation branch to capture spatial dependencies across multiple scales, thereby substantially improving the recognition of unstructured targets in complex scenes. On the ISPRS Vaihingen benchmark, LightFormer attains 99.9% of GLFFNet's mIoU (83.9% vs. 84.0%) while requiring only 14.7% of its FLOPs and 15.9% of its parameters, thus achieving an excellent accuracy-efficiency trade-off. Consistent results on LoveDA, ISPRS Potsdam, RescueNet, and FloodNet further demonstrate its robustness and superior perception of unstructured objects. These findings highlight LightFormer as a practical solution for remote sensing applications where both computational economy and high-precision segmentation are imperative.
- Abstract(参考訳): 深層学習技術はリモートセンシング画像のセマンティックセグメンテーションや土地利用変化検出において顕著な成功を収めている。
それでも、エッジプラットフォームへのリアルタイムデプロイメントはデコーダの複雑さによって制限されている。
本稿では,災害アセスメント,無人航空機の捜索・救助,文化遺産モニタリングなど,非構造的対象を含む時間クリティカルなタスクのための軽量デコーダLightFormerを紹介する。
LightFormerは、チャネル処理上に構築された機能融合および改良モジュールと、学習可能なゲーティング機構を使用して、マルチスケール、マルチレンジ情報を効率的に集約し、モデルの複雑さを大幅に削減する。
さらに,複数スケールにわたる空間依存を捉え,複雑なシーンにおける非構造的対象の認識を大幅に改善する空間情報選択モジュール(SISM)を提案する。
ISPRS Vaihingenベンチマークでは、LightFormerはGLFFNetのmIoU(83.9%対84.0%)の99.9%を獲得し、FLOPの14.7%とパラメータの15.9%しか必要とせず、優れた精度と効率のトレードオフを実現している。
LoveDA、ISPRS Potsdam、RescueNet、FloodNetの一貫性のある結果は、非構造化オブジェクトの堅牢性と優れた認識をさらに証明している。
これらの結果は、計算経済と高精度セグメンテーションの両方が必須であるリモートセンシングアプリケーションのための実用的なソリューションとして、LightFormerを強調している。
関連論文リスト
- LWGANet: A Lightweight Group Attention Backbone for Remote Sensing Visual Tasks [20.924609707499915]
この記事では、RS視覚タスクに適した専用の軽量バックボーンネットワークであるLWGANetを紹介する。
RS画像用に調整されたLWGAモジュールは、冗長な特徴を利用して幅広い空間情報を抽出する。
その結果、LWGANetの広範な適用性と、高性能と低複雑性の最適なバランスを維持する能力が確認された。
論文 参考訳(メタデータ) (2025-01-17T08:56:17Z) - A feature refinement module for light-weight semantic segmentation network [11.285793559719702]
本稿では,軽量ネットワークのセマンティック情報を得る能力を向上させるために,新しいセマンティックセマンティックセマンティクス手法を提案する。
Cityscapes と Bdd100K のデータセットを用いて,提案手法が精度と計算コストのトレードオフを期待できることを示す。
論文 参考訳(メタデータ) (2024-12-11T03:31:20Z) - AMMUNet: Multi-Scale Attention Map Merging for Remote Sensing Image Segmentation [4.618389486337933]
マルチスケールアテンションマップをマージするUNetベースのフレームワークであるAMMUNetを提案する。
提案するAMMMは,マルチスケールアテンションマップを固定マスクテンプレートを用いた統一表現に効果的に結合する。
提案手法は,Vayhingenデータセットでは75.48%,Potsdamデータセットでは77.90%という顕著な平均交叉(mIoU)を達成した。
論文 参考訳(メタデータ) (2024-04-20T15:23:15Z) - Low-Resolution Self-Attention for Semantic Segmentation [93.30597515880079]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - Global Context Aggregation Network for Lightweight Saliency Detection of
Surface Defects [70.48554424894728]
我々は,エンコーダ・デコーダ構造上の表面欠陥を簡易に検出するためのGCANet(Global Context Aggregation Network)を開発した。
まず、軽量バックボーンの上部層に新しいトランスフォーマーエンコーダを導入し、DSA(Depth-wise Self-Attention)モジュールを通じてグローバルなコンテキスト情報をキャプチャする。
3つの公開欠陥データセットの実験結果から,提案したネットワークは,他の17の最先端手法と比較して,精度と実行効率のトレードオフを良好に達成できることが示された。
論文 参考訳(メタデータ) (2023-09-22T06:19:11Z) - Spatial-information Guided Adaptive Context-aware Network for Efficient
RGB-D Semantic Segmentation [9.198120596225968]
計算パラメータを削減し,アルゴリズムの堅牢性を保証する,効率的な軽量エンコーダデコーダネットワークを提案する。
また,NYUv2,SUN RGB-D,Cityscapesのデータセットを用いた実験結果から,本手法は最先端手法よりもセグメンテーション精度,推定時間,パラメータのトレードオフが良好であることが示された。
論文 参考訳(メタデータ) (2023-08-11T09:02:03Z) - Learning Deep Context-Sensitive Decomposition for Low-Light Image
Enhancement [58.72667941107544]
典型的なフレームワークは、照明と反射を同時に推定することであるが、特徴空間にカプセル化されたシーンレベルの文脈情報を無視する。
本研究では,空間スケールにおけるシーンレベルのコンテキスト依存を生かした,コンテキスト依存型分解ネットワークアーキテクチャを提案する。
チャネル数を減らして軽量なCSDNet(LiteCSDNet)を開発する。
論文 参考訳(メタデータ) (2021-12-09T06:25:30Z) - RRNet: Relational Reasoning Network with Parallel Multi-scale Attention
for Salient Object Detection in Optical Remote Sensing Images [82.1679766706423]
光リモートセンシング画像(RSI)のためのSODは、光学RSIから視覚的に特徴的な物体や領域を探索・抽出することを目的としている。
光学RSIにおけるSODに並列なマルチスケールアテンションを持つリレーショナル推論ネットワークを提案する。
提案するRRNetは,既存の最先端SODコンペティタよりも質的,定量的に優れている。
論文 参考訳(メタデータ) (2021-10-27T07:18:32Z) - An Attention-Fused Network for Semantic Segmentation of
Very-High-Resolution Remote Sensing Imagery [26.362854938949923]
注目融合ネットワーク(AFNet)という,新しい畳み込みニューラルネットワークアーキテクチャを提案する。
ISPRS Vaihingen 2DデータセットとISPRS Potsdam 2Dデータセットで、総精度91.7%、平均F1スコア90.96%の最先端のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-05-10T06:23:27Z) - Progressive Self-Guided Loss for Salient Object Detection [102.35488902433896]
画像中の深層学習に基づくサラエント物体検出を容易にするプログレッシブ自己誘導損失関数を提案する。
我々のフレームワークは適応的に集約されたマルチスケール機能を利用して、健全な物体の探索と検出を効果的に行う。
論文 参考訳(メタデータ) (2021-01-07T07:33:38Z) - Real-time Semantic Segmentation via Spatial-detail Guided Context
Propagation [49.70144583431999]
本研究では,リアルタイムセマンティックセグメンテーションを実現するための空間詳細ガイド付きコンテキスト伝搬ネットワーク(SGCPNet)を提案する。
浅い層の空間的詳細を利用して低解像度のグローバルコンテキストの伝播を誘導し、失われた空間情報を効果的に再構成することができる。
69.5%のmIoUセグメンテーション精度を実現し、GeForce GTX 1080 Tiの768x1536イメージ上で178.5 FPSに達する。
論文 参考訳(メタデータ) (2020-05-22T07:07:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。