Fugu-MT 論文翻訳(概要): CATNet: Context AggregaTion Network for Instance Segmentation in Remote Sensing Images

論文の概要: CATNet: Context AggregaTion Network for Instance Segmentation in Remote Sensing Images

arxiv url: http://arxiv.org/abs/2111.11057v1
Date: Mon, 22 Nov 2021 08:55:25 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-23 16:15:01.110790
Title: CATNet: Context AggregaTion Network for Instance Segmentation in Remote Sensing Images
Title（参考訳）: CATNet:リモートセンシング画像におけるインスタンスセグメンテーションのためのコンテキストアグリガティオンネットワーク
Authors: Ye Liu, Huifang Li, Chao Hu, Shuang Luo, Huanfeng Shen, and Chang Wen Chen
Abstract要約: 特徴抽出のプロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。提案モデルは,高密度特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),階層的関心抽出器(HRoIE)の3つの軽量プラグアンドプレイモジュールを利用する。我々は,iSAID,DIOR,NWPU VHR-10,HRSIDデータセットに対する提案手法の広範な評価を行う。
参考スコア（独自算出の注目度）: 26.399485634349727
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The task of instance segmentation in remote sensing images, aiming at performing per-pixel labeling of objects at instance level, is of great importance for various civil applications. Despite previous successes, most existing instance segmentation methods designed for natural images encounter sharp performance degradations when directly applied to top-view remote sensing images. Through careful analysis, we observe that the challenges mainly come from lack of discriminative object features due to severe scale variations, low contrasts, and clustered distributions. In order to address these problems, a novel context aggregation network (CATNet) is proposed to improve the feature extraction process. The proposed model exploits three lightweight plug-and-play modules, namely dense feature pyramid network (DenseFPN), spatial context pyramid (SCP), and hierarchical region of interest extractor (HRoIE), to aggregate global visual context at feature, spatial, and instance domains, respectively. DenseFPN is a multi-scale feature propagation module that establishes more flexible information flows by adopting inter-level residual connections, cross-level dense connections, and feature re-weighting strategy. Leveraging the attention mechanism, SCP further augments the features by aggregating global spatial context into local regions. For each instance, HRoIE adaptively generates RoI features for different downstream tasks. We carry out extensive evaluation of the proposed scheme on the challenging iSAID, DIOR, NWPU VHR-10, and HRSID datasets. The evaluation results demonstrate that the proposed approach outperforms state-of-the-arts with similar computational costs. Code is available at https://github.com/yeliudev/CATNet.
Abstract（参考訳）: リモートセンシング画像におけるインスタンスセグメンテーションのタスクは、インスタンスレベルでオブジェクトのピクセル単位のラベリングを行うことを目的としており、様々な民間アプリケーションにとって非常に重要である。これまでの成功にもかかわらず、自然画像用に設計された既存のインスタンスセグメンテーションのほとんどは、トップビューリモートセンシングイメージに直接適用すると、パフォーマンスが著しく低下する。注意深い分析により,厳密なスケールの変動,低コントラスト,クラスタ分布による識別対象の特徴の欠如が主な課題であることがわかった。これらの問題に対処するために,特徴抽出プロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。提案モデルは,高密度な特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),関心抽出器の階層領域(HRoIE)の3つの軽量なプラグアンドプレイモジュールを用いて,特徴領域,空間領域,インスタンス領域のグローバルな視覚的コンテキストを集約する。 DenseFPNは、階層間残差接続、クロスレベル高密度接続、機能再重み付け戦略を採用することで、より柔軟な情報フローを確立するマルチスケール機能伝搬モジュールである。注意機構を活用することで、SCPはグローバルな空間コンテキストを局所領域に集約することで特徴をさらに強化する。各インスタンスに対して、HRoIEは異なる下流タスク用のRoI機能を適応的に生成する。我々は,iSAID,DIOR,NWPU VHR-10,HRSIDデータセットに対する提案手法の広範な評価を行う。評価結果は,提案手法が同様の計算コストで最先端技術より優れていることを示す。コードはhttps://github.com/yeliudev/catnetで入手できる。

関連論文リスト

GRASP: Guided Region-Aware Sparse Prompting for Adapting MLLMs to Remote Sensing [50.961694646995376]
GRASP(Guid Region-Aware Sparse Prompting)と呼ばれるパラメータ効率細調整(PEFT)戦略を提案する。 GRASPは、凍結した視覚的トークングリッドから抽出された空間ブロックに関連する空間的構造化されたソフトプロンプトを導入する。複数のRSVQAベンチマークの実験では、GRASPは既存の微調整やプロンプトベースの手法と比較して競争性能が向上している。
論文参考訳（メタデータ） (2026-01-23T10:12:59Z)
GCRPNet: Graph-Enhanced Contextual and Regional Perception Network for Salient Object Detection in Optical Remote Sensing Images [68.33481681452675]
本稿では,GCRPNet(Graph-enhanced contextual and Regional Recognition Network)を提案する。これはMambaアーキテクチャの上に構築され、長距離依存関係を同時にキャプチャし、地域的特徴表現を強化する。マルチスケールの畳み込みによって処理される特徴マップに対して適応的なパッチスキャンを行い、リッチなローカル領域情報をキャプチャする。
論文参考訳（メタデータ） (2025-08-14T11:31:43Z)
MGDFIS: Multi-scale Global-detail Feature Integration Strategy for Small Object Detection [10.135137525886098]
UAV画像の小さな物体検出は、探索・救助、交通監視、環境監視といった用途に不可欠である。既存のマルチスケール融合法は、計算負荷を増し、詳細をぼかすのに役立つ。本稿では,グローバルコンテキストと局所的な詳細を密結合して検出性能を向上させる統合融合フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-15T02:54:25Z)
Threshold Attention Network for Semantic Segmentation of Remote Sensing Images [3.5449012582104795]
自己認識機構(SA)はセグメンテーションネットワークの設計に有効な手法である。セマンティックセグメンテーションのための新しいしきい値注意機構(TAM)を提案する。 TAMに基づいて,セマンティックセグメンテーションのためのしきい値注意ネットワーク(TANet)を提案する。
論文参考訳（メタデータ） (2025-01-14T10:09:55Z)
Multi-Level Embedding and Alignment Network with Consistency and Invariance Learning for Cross-View Geo-Localization [2.733505168507872]
CVGL(Cross-View Geo-Localization)は、最もよく似たGPSタグ付き衛星画像を取得することで、ドローン画像のローカライゼーションを決定する。既存の手法は、モデルの性能を改善する際に、計算と記憶の要求が増大する問題をしばしば見落としている。マルチレベル・エンベディング・アライメント・ネットワーク(MEAN)と呼ばれる軽量なアライメント・ネットワークを提案する。
論文参考訳（メタデータ） (2024-12-19T13:10:38Z)
Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。 HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文参考訳（メタデータ） (2024-10-04T06:19:29Z)
Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文参考訳（メタデータ） (2023-12-19T08:14:14Z)
Hi-ResNet: Edge Detail Enhancement for High-Resolution Remote Sensing Segmentation [10.919956120261539]
高分解能リモートセンシング(HRS)セマンティックセマンティクスは、高分解能カバレッジ領域からキーオブジェクトを抽出する。 HRS画像内の同じカテゴリのオブジェクトは、多様な地理的環境におけるスケールと形状の顕著な違いを示す。効率的なネットワーク構造を持つ高分解能リモートセンシングネットワーク(Hi-ResNet)を提案する。
論文参考訳（メタデータ） (2023-05-22T03:58:25Z)
Global Relation Modeling and Refinement for Bottom-Up Human Pose Estimation [4.24515544235173]
ボトムアップヒトポーズ推定のための畳み込みニューラルネットワークを提案する。我々のモデルは、地域によって異なる粒度に焦点を合わせることができる。 COCO と CrowdPose のデータセットで得られた結果は,多人数ポーズ推定の効率的なフレームワークであることを実証している。
論文参考訳（メタデータ） (2023-03-27T02:54:08Z)
Multi-scale and Cross-scale Contrastive Learning for Semantic Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文参考訳（メタデータ） (2022-03-25T01:24:24Z)
Semantic Attention and Scale Complementary Network for Instance Segmentation in Remote Sensing Images [54.08240004593062]
本稿では,セマンティックアテンション(SEA)モジュールとスケール補完マスクブランチ(SCMB)で構成される,エンドツーエンドのマルチカテゴリインスタンスセグメンテーションモデルを提案する。 SEAモジュールは、機能マップ上の興味あるインスタンスのアクティベーションを強化するために、追加の監督を備えた、単純な完全な畳み込みセマンティックセマンティックセマンティクスブランチを含んでいる。 SCMBは、元のシングルマスクブランチをトリデントマスクブランチに拡張し、異なるスケールで補完マスクの監視を導入する。
論文参考訳（メタデータ） (2021-07-25T08:53:59Z)
Adversarial Feature Augmentation and Normalization for Visual Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文参考訳（メタデータ） (2021-03-22T20:36:34Z)
Fine-Grained Dynamic Head for Object Detection [68.70628757217939]
本稿では,各インスタンスの異なるスケールからfpn特徴の画素レベルの組み合わせを条件付きで選択する,きめ細かい動的ヘッドを提案する。実験は,いくつかの最先端検出ベンチマークにおける提案手法の有効性と有効性を示す。
論文参考訳（メタデータ） (2020-12-07T08:16:32Z)
Multi-Attention-Network for Semantic Segmentation of Fine Resolution Remote Sensing Images [10.835342317692884]
リモートセンシング画像におけるセマンティックセグメンテーションの精度は、ディープ畳み込みニューラルネットワークによって著しく向上した。本稿では,これらの問題に対処するマルチアテンション・ネットワーク(MANet)を提案する。線形複雑性を伴うカーネル注意の新たなアテンション機構が提案され,注目される計算負荷の低減が図られた。
論文参考訳（メタデータ） (2020-09-03T09:08:02Z)
Sequential Hierarchical Learning with Distribution Transformation for Image Super-Resolution [83.70890515772456]
画像SRのための逐次階層学習型超解像ネットワーク(SHSR)を構築した。特徴のスケール間相関を考察し、階層的情報を段階的に探索するシーケンシャルなマルチスケールブロック(SMB)を考案する。実験結果から,SHSRは最先端手法に優れた定量的性能と視覚的品質が得られることが示された。
論文参考訳（メタデータ） (2020-07-19T01:35:53Z)
Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文参考訳（メタデータ） (2020-03-15T11:04:30Z)
Global Context-Aware Progressive Aggregation Network for Salient Object Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2020-03-02T04:26:10Z)
Hybrid Multiple Attention Network for Semantic Segmentation in Aerial Images [24.35779077001839]
グローバルな相関関係を適応的に捉えるために,Hybrid Multiple Attention Network (HMANet) という新しいアテンションベースのフレームワークを提案する。本稿では,機能的冗長性を低減し,自己注意機構の効率を向上させるため,単純で効果的な領域シャッフルアテンション(RSA)モジュールを提案する。
論文参考訳（メタデータ） (2020-01-09T07:47:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。