論文の概要: SegEarth-R2: Towards Comprehensive Language-guided Segmentation for Remote Sensing Images
- arxiv url: http://arxiv.org/abs/2512.20013v1
- Date: Tue, 23 Dec 2025 03:10:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.730178
- Title: SegEarth-R2: Towards Comprehensive Language-guided Segmentation for Remote Sensing Images
- Title(参考訳): SegEarth-R2:リモートセンシング画像のための包括的言語誘導セグメンテーションを目指して
- Authors: Zepeng Xin, Kaiyu Li, Luodi Chen, Wanchen Li, Yuchen Xiao, Hui Qiao, Weizhan Zhang, Deyu Meng, Xiangyong Cao,
- Abstract要約: 現在のモデルは単純な単一ターゲットのコマンドを解析できるが、複雑な地理空間シナリオで表されると失敗する。
総合的なトレーニングと評価のために構築された最初の大規模データセットであるLaSeRSを紹介する。
また,SegEarth-R2 は RS における包括的言語誘導セグメンテーションのために設計されたMLLM アーキテクチャである。
- 参考スコア(独自算出の注目度): 49.52402091341301
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effectively grounding complex language to pixels in remote sensing (RS) images is a critical challenge for applications like disaster response and environmental monitoring. Current models can parse simple, single-target commands but fail when presented with complex geospatial scenarios, e.g., segmenting objects at various granularities, executing multi-target instructions, and interpreting implicit user intent. To drive progress against these failures, we present LaSeRS, the first large-scale dataset built for comprehensive training and evaluation across four critical dimensions of language-guided segmentation: hierarchical granularity, target multiplicity, reasoning requirements, and linguistic variability. By capturing these dimensions, LaSeRS moves beyond simple commands, providing a benchmark for complex geospatial reasoning. This addresses a critical gap: existing datasets oversimplify, leading to sensitivity-prone real-world models. We also propose SegEarth-R2, an MLLM architecture designed for comprehensive language-guided segmentation in RS, which directly confronts these challenges. The model's effectiveness stems from two key improvements: (1) a spatial attention supervision mechanism specifically handles the localization of small objects and their components, and (2) a flexible and efficient segmentation query mechanism that handles both single-target and multi-target scenarios. Experimental results demonstrate that our SegEarth-R2 achieves outstanding performance on LaSeRS and other benchmarks, establishing a powerful baseline for the next generation of geospatial segmentation. All data and code will be released at https://github.com/earth-insights/SegEarth-R2.
- Abstract(参考訳): リモートセンシング(RS)画像において、複雑な言語をピクセルに効果的に接地することは、災害対応や環境モニタリングといったアプリケーションにとって重要な課題である。
現在のモデルは単純で単一ターゲットのコマンドを解析できるが、複雑な地理空間シナリオ、例えば、さまざまな粒度のオブジェクトのセグメンテーション、マルチターゲット命令の実行、暗黙のユーザインテントの解釈などで失敗する。
言語誘導セグメンテーションの4つの重要な側面、階層的な粒度、目的の多重度、推論要求、言語変数を網羅した総合的なトレーニングと評価のために構築された最初の大規模データセットであるLaSeRSを提案する。
これらの次元をキャプチャすることで、LaSeRSは単純なコマンドを超えて、複雑な地理空間的推論のベンチマークを提供する。
既存のデータセットが過度に単純化し、センシティブな現実のモデルに繋がる。
また,SegEarth-R2というMLLMアーキテクチャを提案する。
モデルの有効性は,(1)小さなオブジェクトとそのコンポーネントの局所化を特に扱う空間的注意監視機構,(2)単一ターゲットシナリオとマルチターゲットシナリオの両方を扱うフレキシブルかつ効率的なセグメンテーションクエリ機構,の2つの重要な改善に起因している。
実験の結果,SegEarth-R2はLaSeRSや他のベンチマークで優れた性能を示し,次世代の地理空間分割のための強力なベースラインを確立した。
すべてのデータとコードはhttps://github.com/earth-insights/SegEarth-R2で公開される。
関連論文リスト
- FineRS: Fine-grained Reasoning and Segmentation of Small Objects with Reinforcement Learning [62.11389260206383]
textscFineRSは、非常に小さなオブジェクトをセグメント化するための2段階のMLLMベースの強化学習フレームワークである。
textscFineRS-4kは,属性レベルの推論に基づくMLLMの評価と,微妙で小規模なターゲットに対する画素レベルのセグメンテーションのための新しいデータセットである。
論文 参考訳(メタデータ) (2025-10-24T10:14:17Z) - Exploring Efficient Open-Vocabulary Segmentation in the Remote Sensing [55.291219073365546]
Open-Vocabulary Remote Sensing Image (OVRSIS)は、OVS(Open-Vocabulary)をリモートセンシング(RS)ドメインに適応させる新しいタスクである。
textbfRSKT-Segは、リモートセンシングに適した新しいオープン語彙セグメンテーションフレームワークである。
RSKT-Segは高いOVSベースラインを+3.8 mIoUと+5.9 mACCで上回り、効率的なアグリゲーションによって2倍高速な推論を実現している。
論文 参考訳(メタデータ) (2025-09-15T15:24:49Z) - Semantic Localization Guiding Segment Anything Model For Reference Remote Sensing Image Segmentation [12.67400143793047]
我々は,Segment Anything Model(PSLG-SAM)を導くtextitprompt生成セマンティックローカライゼーションというフレームワークを提案する。
PSLG-SAMは、参照リモートセンシングイメージ(RRSIS)タスクを粗いローカライゼーションと細かなセグメンテーションの2つのステージに分解する。
特に、第2段階は、RRSISタスクのアノテーションデータ負担を著しく低減する。
論文 参考訳(メタデータ) (2025-06-12T09:04:07Z) - SegEarth-R1: Geospatial Pixel Reasoning via Large Language Model [61.97017867656831]
暗黙的な問合せと推論を可能にし,対象領域のマスクを生成する新しいタスク,すなわち地理空間的画素推論を導入する。
我々は,5,434枚の手動アノテート画像マスクと3万枚以上の暗黙的な質問応答ペアからなる,EarthReasonという,最初の大規模ベンチマークデータセットを構築し,リリースする。
SegEarth-R1は、推論タスクと参照セグメンテーションタスクの両方で最先端のパフォーマンスを実現し、従来のLCMベースのセグメンテーション手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2025-04-13T16:36:47Z) - Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - SDPL: Shifting-Dense Partition Learning for UAV-View Geo-Localization [27.131867916908156]
クロスビューなジオローカライゼーションは、異なるプラットフォームから同じターゲットの画像にマッチすることを目的としている。
本稿では,パートベース表現学習,シフト・デンス分割学習を紹介する。
SDPLは位置ずれに対して頑健であり、2つの一般的なベンチマークで反復的に動作することを示す。
論文 参考訳(メタデータ) (2024-03-07T03:07:54Z) - Fully and Weakly Supervised Referring Expression Segmentation with
End-to-End Learning [50.40482222266927]
Referring Expression(RES)は、与えられた言語表現に従ってターゲットをローカライズし、セグメンテーションすることを目的としている。
そこで我々は,カーネル分割パイプラインを並列に構築し,より分離し,局所化とセグメント化のステップと相互作用する。
我々の手法は単純だが驚くほど効果的であり、完全に教師された設定と弱い設定において、従来の最先端のRES手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-17T08:29:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。