論文の概要: Towards Realistic Open-Vocabulary Remote Sensing Segmentation: Benchmark and Baseline
- arxiv url: http://arxiv.org/abs/2604.15652v1
- Date: Fri, 17 Apr 2026 02:49:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.718459
- Title: Towards Realistic Open-Vocabulary Remote Sensing Segmentation: Benchmark and Baseline
- Title(参考訳): リアルなオープンボキャブラリリモートセンシングセグメンテーションに向けて:ベンチマークとベースライン
- Authors: Bingyu Li, Tao Huo, Haocheng Dong, Da Zhang, Zhiyuan Zhao, Junyu Gao, Xuelong Li,
- Abstract要約: オープンボキャブラリリモートセンシングイメージセグメンテーション(OVRSIS)は、データセットの断片化、トレーニングの多様性の制限、評価ベンチマークの欠如などにより、まだ探索されていない。
我々はOVRSISの大規模かつアプリケーション指向のベンチマークである textitOVRSISBenchV2 を提案する。
以上の結果から,リアルなベンチマーク設計の重要性と,OVRSISの摂動型転送の有効性が示唆された。
- 参考スコア(独自算出の注目度): 52.65099689153431
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-vocabulary remote sensing image segmentation (OVRSIS) remains underexplored due to fragmented datasets, limited training diversity, and the lack of evaluation benchmarks that reflect realistic geospatial application demands. Our previous \textit{OVRSISBenchV1} established an initial cross-dataset evaluation protocol, but its limited scope is insufficient for assessing realistic open-world generalization. To address this issue, we propose \textit{OVRSISBenchV2}, a large-scale and application-oriented benchmark for OVRSIS. We first construct \textbf{OVRSIS95K}, a balanced dataset of about 95K image--mask pairs covering 35 common semantic categories across diverse remote sensing scenes. Built upon OVRSIS95K and 10 downstream datasets, OVRSISBenchV2 contains 170K images and 128 categories, substantially expanding scene diversity, semantic coverage, and evaluation difficulty. Beyond standard open-vocabulary segmentation, it further includes downstream protocols for building extraction, road extraction, and flood detection, thereby better reflecting realistic geospatial application demands and complex deployment scenarios. We also propose \textbf{Pi-Seg}, a baseline for OVRSIS. Pi-Seg improves transferability through a \textbf{positive-incentive noise} mechanism, where learnable and semantically guided perturbations broaden the visual-text feature space during training. Extensive experiments on OVRSISBenchV1, OVRSISBenchV2, and downstream tasks show that Pi-Seg delivers strong and consistent results, particularly on the more challenging OVRSISBenchV2 benchmark. Our results highlight both the importance of realistic benchmark design and the effectiveness of perturbation-based transfer for OVRSIS. The code and datasets are available at \href{https://github.com/LiBingyu01/RSKT-Seg/tree/Pi-Seg}{LiBingyu01/RSKT-Seg/tree/Pi-Seg}.
- Abstract(参考訳): オープンボキャブラリリモートセンシングイメージセグメンテーション(OVRSIS)は、断片化されたデータセット、トレーニングの多様性の制限、現実的な地理空間的アプリケーション要求を反映した評価ベンチマークの欠如により、いまだ探索されていない。
我々の以前の \textit{OVRSISBenchV1} は、最初のクロスデータセット評価プロトコルを確立したが、その限られた範囲は、現実的なオープンワールドの一般化を評価するには不十分である。
そこで本研究では,OVRSISの大規模かつアプリケーション指向ベンチマークであるtextit{OVRSISBenchV2}を提案する。
まず,多様なリモートセンシングシーンにまたがる35の共通セマンティックカテゴリをカバーする,約95Kイメージのバランスの取れたデータセットである‘textbf{OVRSIS95K} を構築した。
OVRSIS95Kと10の下流データセットに基づいて構築されたOVRSISBenchV2には、170Kの画像と128のカテゴリが含まれており、シーンの多様性、セマンティックカバレッジ、評価の難しさを大幅に拡大している。
標準のオープン語彙セグメンテーション以外にも、ビルディング抽出、道路抽出、洪水検出のための下流プロトコルが含まれており、現実的な地理空間アプリケーション要求と複雑なデプロイメントシナリオを反映している。
また,OVRSISのベースラインであるtextbf{Pi-Seg}を提案する。
Pi-Segは、学習可能で意味論的に誘導された摂動がトレーニング中に視覚的テキストの特徴空間を広げる、‘textbf{ positive-incentive noise’メカニズムを通じて、転送可能性を改善する。
OVRSISBenchV1、OVRSISBenchV2、下流タスクに関する大規模な実験は、特により困難なOVRSISBenchV2ベンチマークにおいて、Pi-Segが強く一貫性のある結果をもたらすことを示している。
本結果は,リアルなベンチマーク設計の重要性と,OVRSISの摂動に基づく転送の有効性の両方を強調した。
コードとデータセットは \href{https://github.com/LiBingyu01/RSKT-Seg/tree/Pi-Seg}{LiBingyu01/RSKT-Seg/tree/Pi-Seg} で公開されている。
関連論文リスト
- ConInfer: Context-Aware Inference for Training-Free Open-Vocabulary Remote Sensing Segmentation [12.428190609914594]
リモートセンシング画像におけるカテゴリに依存しない意味理解を実現するための,訓練不要なオープン語彙リモートセンシングセグメンテーション (OVRSS) が,有望なパラダイムとして登場した。
我々は,複数の空間単位をまたいだ共同予測を行う,OVRSSのコンテキスト認識推論フレームワークであるConInferを提案する。
本手法は,複雑なリモートセンシング環境におけるセグメンテーションの整合性,堅牢性,一般化を著しく向上させる。
論文 参考訳(メタデータ) (2026-03-31T05:12:02Z) - EPRBench: A High-Quality Benchmark Dataset for Event Stream Based Visual Place Recognition [54.55914886780534]
イベントストリームに基づく視覚的位置認識(VPR)は、従来の可視光カメラの不安定性に対して、低照度、過剰露光、高速モーションといった困難な条件下で魅力的な解決策を提供する、新たな研究方向である。
イベントストリームベースのVPR用に特別に設計された高品質なベンチマークであるEPRBenchを紹介する。
EPRBenchは10Kのイベントシーケンスと65Kのイベントフレームで構成され、ハンドヘルドと車載のセットアップを使用して収集され、さまざまな視点、気象条件、照明シナリオで現実世界の課題を包括的にキャプチャする。
論文 参考訳(メタデータ) (2026-02-13T13:25:05Z) - SegEarth-R2: Towards Comprehensive Language-guided Segmentation for Remote Sensing Images [49.52402091341301]
現在のモデルは単純な単一ターゲットのコマンドを解析できるが、複雑な地理空間シナリオで表されると失敗する。
総合的なトレーニングと評価のために構築された最初の大規模データセットであるLaSeRSを紹介する。
また,SegEarth-R2 は RS における包括的言語誘導セグメンテーションのために設計されたMLLM アーキテクチャである。
論文 参考訳(メタデータ) (2025-12-23T03:10:17Z) - Exploring Efficient Open-Vocabulary Segmentation in the Remote Sensing [55.291219073365546]
Open-Vocabulary Remote Sensing Image (OVRSIS)は、OVS(Open-Vocabulary)をリモートセンシング(RS)ドメインに適応させる新しいタスクである。
textbfRSKT-Segは、リモートセンシングに適した新しいオープン語彙セグメンテーションフレームワークである。
RSKT-Segは高いOVSベースラインを+3.8 mIoUと+5.9 mACCで上回り、効率的なアグリゲーションによって2倍高速な推論を実現している。
論文 参考訳(メタデータ) (2025-09-15T15:24:49Z) - Semantic Localization Guiding Segment Anything Model For Reference Remote Sensing Image Segmentation [12.67400143793047]
我々は,Segment Anything Model(PSLG-SAM)を導くtextitprompt生成セマンティックローカライゼーションというフレームワークを提案する。
PSLG-SAMは、参照リモートセンシングイメージ(RRSIS)タスクを粗いローカライゼーションと細かなセグメンテーションの2つのステージに分解する。
特に、第2段階は、RRSISタスクのアノテーションデータ負担を著しく低減する。
論文 参考訳(メタデータ) (2025-06-12T09:04:07Z) - SegEarth-R1: Geospatial Pixel Reasoning via Large Language Model [61.97017867656831]
暗黙的な問合せと推論を可能にし,対象領域のマスクを生成する新しいタスク,すなわち地理空間的画素推論を導入する。
我々は,5,434枚の手動アノテート画像マスクと3万枚以上の暗黙的な質問応答ペアからなる,EarthReasonという,最初の大規模ベンチマークデータセットを構築し,リリースする。
SegEarth-R1は、推論タスクと参照セグメンテーションタスクの両方で最先端のパフォーマンスを実現し、従来のLCMベースのセグメンテーション手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2025-04-13T16:36:47Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。