論文の概要: Learning to Aggregate Multi-Scale Context for Instance Segmentation in
Remote Sensing Images
- arxiv url: http://arxiv.org/abs/2111.11057v4
- Date: Thu, 25 Jan 2024 02:22:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 18:59:39.173474
- Title: Learning to Aggregate Multi-Scale Context for Instance Segmentation in
Remote Sensing Images
- Title(参考訳): リモートセンシング画像のセグメンテーションにおけるマルチスケールコンテキストの集約学習
- Authors: Ye Liu, Huifang Li, Chao Hu, Shuang Luo, Yan Luo, and Chang Wen Chen
- Abstract要約: 特徴抽出のプロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。
提案モデルは,高密度特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),階層的関心抽出器(HRoIE)の3つの軽量プラグアンドプレイモジュールを利用する。
- 参考スコア(独自算出の注目度): 28.560068780733342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of instance segmentation in remote sensing images, aiming at
performing per-pixel labeling of objects at instance level, is of great
importance for various civil applications. Despite previous successes, most
existing instance segmentation methods designed for natural images encounter
sharp performance degradations when they are directly applied to top-view
remote sensing images. Through careful analysis, we observe that the challenges
mainly come from the lack of discriminative object features due to severe scale
variations, low contrasts, and clustered distributions. In order to address
these problems, a novel context aggregation network (CATNet) is proposed to
improve the feature extraction process. The proposed model exploits three
lightweight plug-and-play modules, namely dense feature pyramid network
(DenseFPN), spatial context pyramid (SCP), and hierarchical region of interest
extractor (HRoIE), to aggregate global visual context at feature, spatial, and
instance domains, respectively. DenseFPN is a multi-scale feature propagation
module that establishes more flexible information flows by adopting inter-level
residual connections, cross-level dense connections, and feature re-weighting
strategy. Leveraging the attention mechanism, SCP further augments the features
by aggregating global spatial context into local regions. For each instance,
HRoIE adaptively generates RoI features for different downstream tasks.
Extensive evaluations of the proposed scheme on iSAID, DIOR, NWPU VHR-10, and
HRSID datasets demonstrate that the proposed approach outperforms
state-of-the-arts under similar computational costs. Source code and
pre-trained models are available at https://github.com/yeliudev/CATNet.
- Abstract(参考訳): リモートセンシング画像におけるインスタンスセグメンテーションのタスクは、インスタンスレベルでオブジェクトのピクセル単位のラベリングを行うことを目的としており、様々な民間アプリケーションにとって非常に重要である。
これまでの成功にもかかわらず、自然画像用に設計された既存のインスタンスセグメンテーション手法のほとんどは、トップビューリモートセンシングイメージに直接適用されると、パフォーマンスが著しく低下する。
注意深い分析により,厳密なスケールの変動,低コントラスト,クラスタ化分布による識別対象の特徴の欠如が主な課題であることがわかった。
これらの問題に対処するために,特徴抽出プロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。
提案モデルは,高密度な特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),関心抽出器の階層領域(HRoIE)の3つの軽量なプラグアンドプレイモジュールを用いて,特徴領域,空間領域,インスタンス領域のグローバルな視覚的コンテキストを集約する。
DenseFPNは、階層間残差接続、クロスレベル高密度接続、機能再重み付け戦略を採用することで、より柔軟な情報フローを確立するマルチスケール機能伝搬モジュールである。
注意機構を活用することで、SCPはグローバルな空間コンテキストを局所領域に集約することで特徴をさらに強化する。
各インスタンスに対して、HRoIEは異なる下流タスク用のRoI機能を適応的に生成する。
iSAID, DIOR, NWPU VHR-10, HRSIDデータセットに対する提案手法の大規模評価は, 同様の計算コストで, 提案手法が最先端技術を上回ることを示した。
ソースコードと事前学習されたモデルはhttps://github.com/yeliudev/catnetで入手できる。
関連論文リスト
- Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Hi-ResNet: Edge Detail Enhancement for High-Resolution Remote Sensing Segmentation [10.919956120261539]
高分解能リモートセンシング(HRS)セマンティックセマンティクスは、高分解能カバレッジ領域からキーオブジェクトを抽出する。
HRS画像内の同じカテゴリのオブジェクトは、多様な地理的環境におけるスケールと形状の顕著な違いを示す。
効率的なネットワーク構造を持つ高分解能リモートセンシングネットワーク(Hi-ResNet)を提案する。
論文 参考訳(メタデータ) (2023-05-22T03:58:25Z) - Global Relation Modeling and Refinement for Bottom-Up Human Pose
Estimation [4.24515544235173]
ボトムアップヒトポーズ推定のための畳み込みニューラルネットワークを提案する。
我々のモデルは、地域によって異なる粒度に焦点を合わせることができる。
COCO と CrowdPose のデータセットで得られた結果は,多人数ポーズ推定の効率的なフレームワークであることを実証している。
論文 参考訳(メタデータ) (2023-03-27T02:54:08Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - Semantic Attention and Scale Complementary Network for Instance
Segmentation in Remote Sensing Images [54.08240004593062]
本稿では,セマンティックアテンション(SEA)モジュールとスケール補完マスクブランチ(SCMB)で構成される,エンドツーエンドのマルチカテゴリインスタンスセグメンテーションモデルを提案する。
SEAモジュールは、機能マップ上の興味あるインスタンスのアクティベーションを強化するために、追加の監督を備えた、単純な完全な畳み込みセマンティックセマンティックセマンティクスブランチを含んでいる。
SCMBは、元のシングルマスクブランチをトリデントマスクブランチに拡張し、異なるスケールで補完マスクの監視を導入する。
論文 参考訳(メタデータ) (2021-07-25T08:53:59Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Fine-Grained Dynamic Head for Object Detection [68.70628757217939]
本稿では,各インスタンスの異なるスケールからfpn特徴の画素レベルの組み合わせを条件付きで選択する,きめ細かい動的ヘッドを提案する。
実験は,いくつかの最先端検出ベンチマークにおける提案手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2020-12-07T08:16:32Z) - Multi-Attention-Network for Semantic Segmentation of Fine Resolution
Remote Sensing Images [10.835342317692884]
リモートセンシング画像におけるセマンティックセグメンテーションの精度は、ディープ畳み込みニューラルネットワークによって著しく向上した。
本稿では,これらの問題に対処するマルチアテンション・ネットワーク(MANet)を提案する。
線形複雑性を伴うカーネル注意の新たなアテンション機構が提案され,注目される計算負荷の低減が図られた。
論文 参考訳(メタデータ) (2020-09-03T09:08:02Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z) - Hybrid Multiple Attention Network for Semantic Segmentation in Aerial
Images [24.35779077001839]
グローバルな相関関係を適応的に捉えるために,Hybrid Multiple Attention Network (HMANet) という新しいアテンションベースのフレームワークを提案する。
本稿では,機能的冗長性を低減し,自己注意機構の効率を向上させるため,単純で効果的な領域シャッフルアテンション(RSA)モジュールを提案する。
論文 参考訳(メタデータ) (2020-01-09T07:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。