論文の概要: UniGeoSeg: Towards Unified Open-World Segmentation for Geospatial Scenes
- arxiv url: http://arxiv.org/abs/2511.23332v1
- Date: Fri, 28 Nov 2025 16:40:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.983263
- Title: UniGeoSeg: Towards Unified Open-World Segmentation for Geospatial Scenes
- Title(参考訳): UniGeoSeg: 地理空間シーンのための統一されたオープンワールドセグメンテーションを目指して
- Authors: Shuo Ni, Di Wang, He Chen, Haonan Guo, Ning Zhang, Jing Zhang,
- Abstract要約: リモートセンシング命令駆動セグメンテーションのための最初の100万スケールデータセットであるGeoSeg-1Mを紹介する。
GeoSeg-1Mには590Kの画像、117のカテゴリ、1.1Mのイメージマスク命令三つ子が含まれている。
また,タスク認識型テキスト強調,潜時知識記憶,プログレッシブトレーニング戦略を取り入れた統合フレームワークUniGeoSegを提案する。
- 参考スコア(独自算出の注目度): 18.631940492768898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction-driven segmentation in remote sensing generates masks from guidance, offering great potential for accessible and generalizable applications. However, existing methods suffer from fragmented task formulations and limited instruction data, hindering effective understanding and generalization. To address these issues, we introduce GeoSeg-1M, the first million-scale dataset for remote sensing instruction-driven segmentation, constructed via an automatic mask filtering and instruction generation pipeline that synthesizes referring, interactive, and reasoning segmentation instructions from multiple public datasets. GeoSeg-1M contains 590K images, 117 categories, and 1.1M image-mask-instruction triplets. Building upon this foundation, we further curate GeoSeg-Bench, a challenging benchmark designed to evaluate contextual understanding and reasoning capabilities across diverse instruction-driven tasks and complex geospatial scenes. Furthermore, we present UniGeoSeg, a unified framework that serves as a strong baseline, incorporating task-aware text enhancement, latent knowledge memory, and a progressive training strategy to facilitate multi-task learning. Extensive experiments demonstrate the state-of-the-art performance of UniGeoSeg across GeoSeg-Bench and diverse public benchmarks, while exhibiting strong zero-shot generalization. Datasets and source code were released at https://github.com/MiliLab/UniGeoSeg.
- Abstract(参考訳): リモートセンシングにおける命令駆動セグメンテーションは、ガイダンスからマスクを生成し、アクセス可能で一般化可能なアプリケーションに大きな可能性を秘めている。
しかし、既存の手法は断片化されたタスクの定式化と限られた命令データに悩まされ、効果的な理解と一般化を妨げている。
これらの問題に対処するために,複数の公開データセットからの参照,インタラクティブ,推論のセグメンテーション命令を合成する自動マスクフィルタリングと命令生成パイプラインによって構築された,リモートセンシングによるセグメンテーションのための最初の100万スケールデータセットであるGeoSeg-1Mを紹介した。
GeoSeg-1Mには590Kの画像、117のカテゴリ、1.1Mのイメージマスク命令三つ子が含まれている。
この基盤の上に構築されたGeoSeg-Benchは、多様な命令駆動タスクと複雑な地理空間シーンのコンテキスト理解と推論能力を評価するために設計された、挑戦的なベンチマークである。
さらに,UniGeoSegは,タスク認識テキストの強化,潜時知識記憶,マルチタスク学習を促進するためのプログレッシブトレーニング戦略を取り入れた,強力なベースラインとして機能する統合フレームワークである。
大規模な実験は、GeoSeg-Benchおよび様々な公開ベンチマークにおけるUniGeoSegの最先端性能を示しながら、強いゼロショットの一般化を示している。
データセットとソースコードはhttps://github.com/MiliLab/UniGeoSeg.comでリリースされた。
関連論文リスト
- GeoZero: Incentivizing Reasoning from Scratch on Geospatial Scenes [84.52881742231152]
マルチモーダル大規模言語モデル (MLLM) は地理空間的シーン理解の進展において急速な発展を遂げている。
近年、リモートセンシングMLLMの推論能力の向上が試みられ、典型的には、精巧にキュレートされたチェーン・オブ・シント(CoT)データによるコールドスタートトレーニングによって実現されている。
MLLMが事前に定義されたCoTの監督なしに地理空間推論を行うことを可能にするフレームワークであるGeoZeroを提案する。
論文 参考訳(メタデータ) (2025-11-27T17:28:09Z) - Geo-R1: Improving Few-Shot Geospatial Referring Expression Understanding with Reinforcement Fine-Tuning [37.90271368636318]
リモートセンシングにおける表現理解の参照は、ユニークな課題である。
数ショットの地理空間参照のための推論中心強化微調整(RFT)パラダイムであるGeo-R1を提案する。
論文 参考訳(メタデータ) (2025-09-26T07:01:12Z) - SegEarth-R1: Geospatial Pixel Reasoning via Large Language Model [61.97017867656831]
暗黙的な問合せと推論を可能にし,対象領域のマスクを生成する新しいタスク,すなわち地理空間的画素推論を導入する。
我々は,5,434枚の手動アノテート画像マスクと3万枚以上の暗黙的な質問応答ペアからなる,EarthReasonという,最初の大規模ベンチマークデータセットを構築し,リリースする。
SegEarth-R1は、推論タスクと参照セグメンテーションタスクの両方で最先端のパフォーマンスを実現し、従来のLCMベースのセグメンテーション手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2025-04-13T16:36:47Z) - OmniGeo: Towards a Multimodal Large Language Models for Geospatial Artificial Intelligence [51.0456395687016]
マルチモーダル大言語モデル(LLM)が人工知能の新しいフロンティアをオープンした。
地理空間応用に適したMLLM(OmniGeo)を提案する。
自然言語理解の長所と空間的推論の長所を組み合わせることで,GeoAIシステムの指示追従能力と精度を高めることができる。
論文 参考訳(メタデータ) (2025-03-20T16:45:48Z) - Geo-Semantic-Parsing: AI-powered geoparsing by traversing semantic knowledge graphs [0.7422344184734279]
ジオ・セマンティック・パーシング(Geo-Semantic-Parsing, GSP)と呼ばれる新しいジオパーシングとジオタグ技術を導入する。
GSPは自由テキストで位置参照を特定し、対応する座標を抽出する。
我々は、約10kのイベント関連ツイートを含むよく知られた参照データセット上で、GSPを評価する。
論文 参考訳(メタデータ) (2025-03-03T10:30:23Z) - Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework [59.42946541163632]
3つの重要なコンポーネントを持つ包括的位置決めフレームワークを導入する。
大規模データセットGeoComp、新しい推論手法GeoCoT、評価指標GeoEval。
また,GeoCoTは解釈可能性を高めつつ,位置情報の精度を最大25%向上させることを示した。
論文 参考訳(メタデータ) (2025-02-19T14:21:25Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - GeoGPT: Understanding and Processing Geospatial Tasks through An
Autonomous GPT [6.618846295332767]
GISの意思決定者は、空間的タスクを解決するために、一連の空間的アルゴリズムと演算を組み合わせる必要がある。
我々は,地理空間データ収集,処理,解析を自律的に行うことのできるGeoGPTと呼ばれる新しいフレームワークを開発した。
論文 参考訳(メタデータ) (2023-07-16T03:03:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。