論文の概要: Rotated Multi-Scale Interaction Network for Referring Remote Sensing
Image Segmentation
- arxiv url: http://arxiv.org/abs/2312.12470v2
- Date: Tue, 27 Feb 2024 02:40:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 21:26:43.305667
- Title: Rotated Multi-Scale Interaction Network for Referring Remote Sensing
Image Segmentation
- Title(参考訳): リモートセンシング画像セグメント参照のための回転マルチスケールインタラクションネットワーク
- Authors: Sihan Liu, Yiwei Ma, Xiaoqing Zhang, Haowei Wang, Jiayi Ji, Xiaoshuai
Sun, Rongrong Ji
- Abstract要約: Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
- 参考スコア(独自算出の注目度): 66.31941110777734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring Remote Sensing Image Segmentation (RRSIS) is a new challenge that
combines computer vision and natural language processing, delineating specific
regions in aerial images as described by textual queries. Traditional Referring
Image Segmentation (RIS) approaches have been impeded by the complex spatial
scales and orientations found in aerial imagery, leading to suboptimal
segmentation results. To address these challenges, we introduce the Rotated
Multi-Scale Interaction Network (RMSIN), an innovative approach designed for
the unique demands of RRSIS. RMSIN incorporates an Intra-scale Interaction
Module (IIM) to effectively address the fine-grained detail required at
multiple scales and a Cross-scale Interaction Module (CIM) for integrating
these details coherently across the network. Furthermore, RMSIN employs an
Adaptive Rotated Convolution (ARC) to account for the diverse orientations of
objects, a novel contribution that significantly enhances segmentation
accuracy. To assess the efficacy of RMSIN, we have curated an expansive dataset
comprising 17,402 image-caption-mask triplets, which is unparalleled in terms
of scale and variety. This dataset not only presents the model with a wide
range of spatial and rotational scenarios but also establishes a stringent
benchmark for the RRSIS task, ensuring a rigorous evaluation of performance.
Our experimental evaluations demonstrate the exceptional performance of RMSIN,
surpassing existing state-of-the-art models by a significant margin. All
datasets and code are made available at https://github.com/Lsan2401/RMSIN.
- Abstract(参考訳): Referring Remote Sensing Image Segmentation (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題であり、テキストクエリによって記述された、空中画像の特定の領域を記述している。
従来の参照画像セグメンテーション(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられ、最適部分セグメンテーションの結果をもたらす。
これらの課題に対処するために、RRSISのユニークな要求に対応する革新的なアプローチであるRotated Multi-Scale Interaction Network (RMSIN)を導入する。
RMSINは、複数のスケールで必要とされる細かな詳細に効果的に対処するために、IIM(Intra-scale Interaction Module)と、これらの詳細をネットワーク全体に整合的に統合するためのCIM(Cross-scale Interaction Module)を組み込んでいる。
さらに、RMSINは適応回転畳み込み(ARC)を用いて、オブジェクトの様々な向きを考慮し、セグメント化の精度を大幅に向上させる新しいコントリビューションである。
RMSINの有効性を評価するため、17,402個の画像キャプションマスクトレーレットからなる拡張データセットをキュレートした。
このデータセットは、幅広い空間シナリオと回転シナリオを持つモデルを示すだけでなく、RRSISタスクの厳密なベンチマークを確立し、厳密な性能評価を保証する。
実験結果から,rmsinの性能は従来の最先端モデルをかなり上回っており,その性能は極めて高いことが示された。
すべてのデータセットとコードはhttps://github.com/Lsan2401/RMSINで公開されている。
関連論文リスト
- SAM-Assisted Remote Sensing Imagery Semantic Segmentation with Object
and Boundary Constraints [9.238103649037951]
本稿では,SAM生成オブジェクト(SGO)とSAM生成境界(SGB)という2つの新しい概念を活用することにより,SAMの生出力を活用するフレームワークを提案する。
本稿では,SGOのコンテンツ特性を考慮し,セマンティックな情報を持たないセグメンテーション領域を活用するために,オブジェクト整合性の概念を導入する。
境界損失は、モデルが対象の境界情報に注意を向けることによって、SGBの特徴的な特徴に重きを置いている。
論文 参考訳(メタデータ) (2023-12-05T03:33:47Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - CM-MaskSD: Cross-Modality Masked Self-Distillation for Referring Image
Segmentation [29.885991324519463]
本稿では,CM-MaskSD という新しいクロスモーダルマスク型自己蒸留フレームワークを提案する。
提案手法は,CLIPモデルから画像テキストセマンティックアライメントの伝達知識を継承し,きめ細かいパッチワード特徴アライメントを実現する。
我々のフレームワークはパラメータフリーに近い方法でモデル性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-05-19T07:17:27Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - Learning to Aggregate Multi-Scale Context for Instance Segmentation in
Remote Sensing Images [28.560068780733342]
特徴抽出のプロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。
提案モデルは,高密度特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),階層的関心抽出器(HRoIE)の3つの軽量プラグアンドプレイモジュールを利用する。
論文 参考訳(メタデータ) (2021-11-22T08:55:25Z) - Enhancing MR Image Segmentation with Realistic Adversarial Data
Augmentation [17.539828821476224]
本稿では,学習データの利用効率を向上させるために,逆データ拡張手法を提案する。
本稿では,データ拡張モデルとセグメンテーションネットワークを協調的に最適化する汎用的なタスク駆動学習フレームワークを提案する。
提案した逆データ拡張は生成ネットワークに依存しず,汎用セグメンテーションネットワークのプラグインモジュールとして使用できる。
論文 参考訳(メタデータ) (2021-08-07T11:32:37Z) - A Feature Fusion-Net Using Deep Spatial Context Encoder and
Nonstationary Joint Statistical Model for High Resolution SAR Image
Classification [10.152675581771113]
HR SAR画像に対して, エンドツーエンドの教師付き分類法を提案する。
より効果的な空間特徴を抽出するために,新しい深部空間コンテキストエンコーダネットワーク(DSCEN)を提案する。
統計の多様性を高めるため、非定常連成統計モデル(NS-JSM)が採用され、グローバルな統計特性を形成する。
論文 参考訳(メタデータ) (2021-05-11T06:20:14Z) - Shared Space Transfer Learning for analyzing multi-site fMRI data [83.41324371491774]
マルチボクセルパターン解析(MVPA)は、タスクベース機能磁気共鳴画像(fMRI)データから予測モデルを学習する。
MVPAはよく設計された機能セットと十分なサンプルサイズで機能する。
ほとんどのfMRIデータセットはノイズが多く、高次元で、収集するのに高価で、サンプルサイズも小さい。
本稿では,新しい伝達学習手法として共有空間移動学習(SSTL)を提案する。
論文 参考訳(メタデータ) (2020-10-24T08:50:26Z) - X-ModalNet: A Semi-Supervised Deep Cross-Modal Network for
Classification of Remote Sensing Data [69.37597254841052]
我々はX-ModalNetと呼ばれる新しいクロスモーダルディープラーニングフレームワークを提案する。
X-ModalNetは、ネットワークの上部にある高レベルな特徴によって構築されたアップダスタブルグラフ上にラベルを伝搬するため、うまく一般化する。
我々は2つのマルチモーダルリモートセンシングデータセット(HSI-MSIとHSI-SAR)上でX-ModalNetを評価し、いくつかの最先端手法と比較して大幅に改善した。
論文 参考訳(メタデータ) (2020-06-24T15:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。