論文の概要: A Novel Shape Guided Transformer Network for Instance Segmentation in Remote Sensing Images
- arxiv url: http://arxiv.org/abs/2501.00360v1
- Date: Tue, 31 Dec 2024 09:25:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:15:55.714308
- Title: A Novel Shape Guided Transformer Network for Instance Segmentation in Remote Sensing Images
- Title(参考訳): リモートセンシング画像におけるインスタンスセグメンテーションのための新しい形状誘導型トランスネットワーク
- Authors: Dawen Yu, Shunping Ji,
- Abstract要約: 本稿では,SGTN(Shape Guided Transformer Network)を提案する。
自己アテンション機構のグローバルなコンテキストモデリング能力に着想を得て,LSwinと呼ばれる効率的なトランスフォーマーエンコーダを提案する。
我々のSGTNは、2つの単一クラス公開データセット上での最高平均精度(AP)スコアを達成する。
- 参考スコア(独自算出の注目度): 4.14360329494344
- License:
- Abstract: Instance segmentation performance in remote sensing images (RSIs) is significantly affected by two issues: how to extract accurate boundaries of objects from remote imaging through the dynamic atmosphere, and how to integrate the mutual information of related object instances scattered over a vast spatial region. In this study, we propose a novel Shape Guided Transformer Network (SGTN) to accurately extract objects at the instance level. Inspired by the global contextual modeling capacity of the self-attention mechanism, we propose an effective transformer encoder termed LSwin, which incorporates vertical and horizontal 1D global self-attention mechanisms to obtain better global-perception capacity for RSIs than the popular local-shifted-window based Swin Transformer. To achieve accurate instance mask segmentation, we introduce a shape guidance module (SGM) to emphasize the object boundary and shape information. The combination of SGM, which emphasizes the local detail information, and LSwin, which focuses on the global context relationships, achieve excellent RSI instance segmentation. Their effectiveness was validated through comprehensive ablation experiments. Especially, LSwin is proved better than the popular ResNet and Swin transformer encoder at the same level of efficiency. Compared to other instance segmentation methods, our SGTN achieves the highest average precision (AP) scores on two single-class public datasets (WHU dataset and BITCC dataset) and a multi-class public dataset (NWPU VHR-10 dataset). Code will be available at http://gpcv.whu.edu.cn/data/.
- Abstract(参考訳): リモートセンシング画像(RSI)におけるインスタンスセグメンテーション性能は、リモート画像からダイナミックな雰囲気を通してオブジェクトの正確な境界を抽出する方法と、広大な空間領域に散在する関連オブジェクトの相互情報を統合する方法の2つの問題に大きく影響している。
本研究では,SGTN(Shape Guided Transformer Network)を提案する。
自己認識機構のグローバル・コンテクスト・モデリング能力にインスパイアされたLSwinと呼ばれる実効的なトランスフォーマー・エンコーダを提案し、このトランスコーダは1次元の垂直・水平のグローバル・アテンション・メカニズムを組み、ローカル・シフトウインドウ・ベースのスウィン・トランスよりもRSIのグローバル・パーセプション・キャパシティを向上させる。
高精度なマスク分割を実現するために,物体境界と形状情報を強調する形状誘導モジュール(SGM)を導入する。
ローカルな詳細情報を強調するSGMと、グローバルなコンテキスト関係に焦点を当てたLSwinの組み合わせは、優れたRSIインスタンスセグメンテーションを実現する。
それらの効果は包括的アブレーション実験によって検証された。
特にLSwinは、人気のあるResNetやSwin変換器エンコーダよりも、同じレベルの効率で優れていることが証明されている。
他のインスタンスセグメンテーション手法と比較して、我々のSGTNは2つの単一クラスパブリックデータセット(WHUデータセットとBITCCデータセット)とマルチクラスパブリックデータセット(NWPU VHR-10データセット)で最高平均精度(APスコア)を達成する。
コードはhttp://gpcv.whu.edu.cn/data/.comで入手できる。
関連論文リスト
- Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。
提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。
また,ELGC-Net-LWも導入した。
論文 参考訳(メタデータ) (2024-03-26T17:46:25Z) - Leveraging Swin Transformer for Local-to-Global Weakly Supervised
Semantic Segmentation [12.103012959947055]
本研究では、初期シードCAMの精度を高めるために「SWTformer」を提案することで、Swin Transformerの使用について検討する。
SWTformer-V1は、精度0.98%のmAPを実現し、最先端モデルより優れている。
SWTformer-V2は、追加情報を抽出するためにマルチスケールの機能融合機構を組み込んでいる。
論文 参考訳(メタデータ) (2024-01-31T13:41:17Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Salient Object Detection in Optical Remote Sensing Images Driven by
Transformer [69.22039680783124]
光リモートセンシング画像(ORSI-SOD)のためのGlobal extract Local Exploration Network(GeleNet)を提案する。
具体的には、GeleNetはまずトランスフォーマーバックボーンを採用し、グローバルな長距離依存関係を持つ4レベルの機能埋め込みを生成する。
3つの公開データセットに関する大規模な実験は、提案されたGeleNetが関連する最先端メソッドより優れていることを示している。
論文 参考訳(メタデータ) (2023-09-15T07:14:43Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - Semantic Labeling of High Resolution Images Using EfficientUNets and
Transformers [5.177947445379688]
畳み込みニューラルネットワークとディープトランスを組み合わせた新しいセグメンテーションモデルを提案する。
提案手法は,最先端技術と比較してセグメント化精度が向上することを示す。
論文 参考訳(メタデータ) (2022-06-20T12:03:54Z) - Learning to Aggregate Multi-Scale Context for Instance Segmentation in
Remote Sensing Images [28.560068780733342]
特徴抽出のプロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。
提案モデルは,高密度特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),階層的関心抽出器(HRoIE)の3つの軽量プラグアンドプレイモジュールを利用する。
論文 参考訳(メタデータ) (2021-11-22T08:55:25Z) - Efficient Hybrid Transformer: Learning Global-local Context for Urban
Sence Segmentation [11.237929167356725]
都市景観画像のセマンティックセグメンテーションのための効率的なハイブリッドトランスフォーマ(EHT)を提案する。
EHTはCNNとTransformerを利用して、グローバルなローカルコンテキストを学び、特徴表現を強化する。
提案されたEHTはUAVidテストセットで67.0% mIoUを達成し、他の軽量モデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2021-09-18T13:55:38Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。