論文の概要: A Large-Scale Referring Remote Sensing Image Segmentation Dataset and Benchmark
- arxiv url: http://arxiv.org/abs/2506.03583v1
- Date: Wed, 04 Jun 2025 05:26:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.163395
- Title: A Large-Scale Referring Remote Sensing Image Segmentation Dataset and Benchmark
- Title(参考訳): 大規模参照リモートセンシング画像セグメンテーションデータセットとベンチマーク
- Authors: Zhigang Yang, Huiguang Yao, Linmao Tian, Xuezhi Zhao, Qiang Li, Qi Wang,
- Abstract要約: これまでで最も大きく多様なRRSISデータセットであるNWPU-Referを導入し、49,745個の注釈付きターゲットを持つ30か国にまたがる15,003個の高解像度画像(1024-2048px)を含む。
また、RRSISのユニークな要求に対応する新しいフレームワークであるMulti-scale Referring Network (MRSNet)を提案する。
- 参考スコア(独自算出の注目度): 8.707197692292292
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring Remote Sensing Image Segmentation is a complex and challenging task that integrates the paradigms of computer vision and natural language processing. Existing datasets for RRSIS suffer from critical limitations in resolution, scene diversity, and category coverage, which hinders the generalization and real-world applicability of refer segmentation models. To facilitate the development of this field, we introduce NWPU-Refer, the largest and most diverse RRSIS dataset to date, comprising 15,003 high-resolution images (1024-2048px) spanning 30+ countries with 49,745 annotated targets supporting single-object, multi-object, and non-object segmentation scenarios. Additionally, we propose the Multi-scale Referring Segmentation Network (MRSNet), a novel framework tailored for the unique demands of RRSIS. MRSNet introduces two key innovations: (1) an Intra-scale Feature Interaction Module (IFIM) that captures fine-grained details within each encoder stage, and (2) a Hierarchical Feature Interaction Module (HFIM) to enable seamless cross-scale feature fusion, preserving spatial integrity while enhancing discriminative power. Extensive experiments conducte on the proposed NWPU-Refer dataset demonstrate that MRSNet achieves state-of-the-art performance across multiple evaluation metrics, validating its effectiveness. The dataset and code are publicly available at https://github.com/CVer-Yang/NWPU-Refer.
- Abstract(参考訳): Referring Remote Sensing Image Segmentationは、コンピュータビジョンと自然言語処理のパラダイムを統合する、複雑で困難なタスクである。
既存のRRSISのデータセットは解像度、シーンの多様性、カテゴリーのカバレッジの限界に悩まされており、参照セグメンテーションモデルの一般化と実世界の適用性を妨げている。
NWPU-Referは,30以上の国にまたがる15,003個の高解像度画像(1024-2048px)と,1オブジェクト,複数オブジェクト,非オブジェクトのセグメンテーションシナリオをサポートする49,745個の注釈付きターゲットからなるRRSISデータセットである。
さらに,RRSIS のユニークな要求に対応する新しいフレームワークである Multi-scale Referring Segmentation Network (MRSNet) を提案する。
MRSNetは,(1)エンコーダの各段階で細かな詳細をキャプチャするIFIM(Intra-scale Feature Interaction Module),(2)シームレスなクロススケール機能融合を実現する階層型機能インタラクションモジュール(Hierarchical Feature Interaction Module, HFIM)の2つの重要なイノベーションを紹介する。
提案したNWPU-Referデータセットに基づく大規模な実験により、MSSNetは複数の評価指標で最先端のパフォーマンスを達成し、その有効性を検証する。
データセットとコードはhttps://github.com/CVer-Yang/NWPU-Refer.comで公開されている。
関連論文リスト
- AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [58.67129770371016]
シーン認識最適化のためのテキストメタデータを組み込むことにより、IRSTDパラダイムを再定義する新しいIRSTDフレームワークを提案する。
AuxDetは最先端の手法を一貫して上回り、堅牢性と正確性を改善する上で補助情報の重要な役割を検証している。
論文 参考訳(メタデータ) (2025-05-21T07:02:05Z) - Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - Learning to Aggregate Multi-Scale Context for Instance Segmentation in
Remote Sensing Images [28.560068780733342]
特徴抽出のプロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。
提案モデルは,高密度特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),階層的関心抽出器(HRoIE)の3つの軽量プラグアンドプレイモジュールを利用する。
論文 参考訳(メタデータ) (2021-11-22T08:55:25Z) - CSRNet: Cascaded Selective Resolution Network for Real-time Semantic
Segmentation [18.63596070055678]
本稿では,リアルタイムセグメンテーションの性能向上を図るために,光カスケード選択分解ネットワーク(CSRNet)を提案する。
提案するネットワークは,低解像度から高解像度までの特徴情報を統合した3段階セグメンテーションシステムを構築している。
2つのよく知られたデータセットの実験により、提案したCSRNetはリアルタイムセグメンテーションの性能を効果的に向上することを示した。
論文 参考訳(メタデータ) (2021-06-08T14:22:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。