論文の概要: GeoSeg: Training-Free Reasoning-Driven Segmentation in Remote Sensing Imagery
- arxiv url: http://arxiv.org/abs/2603.03983v1
- Date: Wed, 04 Mar 2026 12:24:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.295608
- Title: GeoSeg: Training-Free Reasoning-Driven Segmentation in Remote Sensing Imagery
- Title(参考訳): GeoSeg:リモートセンシング画像におけるトレーニング不要な推論駆動セグメンテーション
- Authors: Lifan Jiang, Yuhang Pei, oxi Wu, Yan Zhao, Tianrun Wu, Shulong Yu, Lihui Zhang, Deng Cai,
- Abstract要約: 推論駆動型リモートセンシングセグメンテーションの監視ボトルネックを回避し,ゼロショットでトレーニング不要なフレームワークであるGeoSegを提案する。
GeoSegは、(i)系統的な接地シフトを補正するためのバイアス対応座標補正、(ii)細粒な空間的手がかりで意味的意図を融合するための二重ルートプロンプト機構を通じて、正確な局所化を伴うMLLM推論を結合する。
実験の結果、GeoSegはすべてのベースラインを一貫して上回り、各コンポーネントの有効性と必要性を検証している。
- 参考スコア(独自算出の注目度): 12.65874706732698
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in MLLMs are reframing segmentation from fixed-category prediction to instruction-grounded localization. While reasoning based segmentation has progressed rapidly in natural scenes, remote sensing lacks a generalizable solution due to the prohibitive cost of reasoning-oriented data and domain-specific challenges like overhead viewpoints. We present GeoSeg, a zero-shot, training-free framework that bypasses the supervision bottleneck for reasoning-driven remote sensing segmentation. GeoSeg couples MLLM reasoning with precise localization via: (i) bias-aware coordinate refinement to correct systematic grounding shifts and (ii) a dual-route prompting mechanism to fuse semantic intent with fine-grained spatial cues. We also introduce GeoSeg-Bench, a diagnostic benchmark of 810 image--query pairs with hierarchical difficulty levels. Experiments show that GeoSeg consistently outperforms all baselines, with extensive ablations confirming the effectiveness and necessity of each component.
- Abstract(参考訳): MLLMの最近の進歩は、固定カテゴリー予測から命令接地ローカライゼーションへのセグメンテーションの緩和である。
推論に基づくセグメンテーションは自然界では急速に進歩しているが、推論指向データの禁止コストとオーバーヘッド視点のようなドメイン固有の課題のために、リモートセンシングは一般化可能なソリューションを欠いている。
推論駆動型リモートセンシングセグメンテーションの監視ボトルネックを回避し,ゼロショットでトレーニング不要なフレームワークであるGeoSegを提案する。
GeoSegがMLLM推論と正確なローカライゼーションを結合する。
一 系統的な接地シフトを正すためのバイアス対応座標補正
(II)細粒な空間的手がかりで意味的意図を融合させる二重経路促進機構。
また、階層的な難易度を持つ810のイメージクエリペアの診断ベンチマークであるGeoSeg-Benchについても紹介する。
実験の結果、GeoSegはすべてのベースラインを一貫して上回り、各コンポーネントの有効性と必要性を検証している。
関連論文リスト
- RSGround-R1: Rethinking Remote Sensing Visual Grounding through Spatial Reasoning [61.84363374647606]
リモートセンシングビジュアルグラウンドディング(RSVG)は、自然言語記述に基づく大規模空中画像における対象物体のローカライズを目的としている。
これらの記述はしばしば位置的手がかりに大きく依存しており、空間的推論においてMLLM(Multimodal Large Language Models)に固有の課題を提起している。
空間理解の高度化を図るために,textbfRSGround-R1 と呼ばれる推論誘導型位置認識後学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T12:35:57Z) - SegEarth-R2: Towards Comprehensive Language-guided Segmentation for Remote Sensing Images [49.52402091341301]
現在のモデルは単純な単一ターゲットのコマンドを解析できるが、複雑な地理空間シナリオで表されると失敗する。
総合的なトレーニングと評価のために構築された最初の大規模データセットであるLaSeRSを紹介する。
また,SegEarth-R2 は RS における包括的言語誘導セグメンテーションのために設計されたMLLM アーキテクチャである。
論文 参考訳(メタデータ) (2025-12-23T03:10:17Z) - Bridging Semantics and Geometry: A Decoupled LVLM-SAM Framework for Reasoning Segmentation in Remote Sensing [8.731693840957716]
Think2Seg-RSはLVLMプロンプトをトレーニングし、構造化された幾何学的プロンプトを介して凍ったセグメンション・アプライシング・モデル(SAM)を制御するフレームワークである。
このフレームワークは、EarthReasonデータセット上で最先端のパフォーマンスを達成する。
コンパクトセグメンタは、意味レベルの監督の下でより大きなセグメンタより優れており、異種空中背景において負のプロンプトは効果がない。
論文 参考訳(メタデータ) (2025-12-22T11:46:42Z) - GeoZero: Incentivizing Reasoning from Scratch on Geospatial Scenes [84.52881742231152]
マルチモーダル大規模言語モデル (MLLM) は地理空間的シーン理解の進展において急速な発展を遂げている。
近年、リモートセンシングMLLMの推論能力の向上が試みられ、典型的には、精巧にキュレートされたチェーン・オブ・シント(CoT)データによるコールドスタートトレーニングによって実現されている。
MLLMが事前に定義されたCoTの監督なしに地理空間推論を行うことを可能にするフレームワークであるGeoZeroを提案する。
論文 参考訳(メタデータ) (2025-11-27T17:28:09Z) - Geo-R1: Improving Few-Shot Geospatial Referring Expression Understanding with Reinforcement Fine-Tuning [37.90271368636318]
リモートセンシングにおける表現理解の参照は、ユニークな課題である。
数ショットの地理空間参照のための推論中心強化微調整(RFT)パラダイムであるGeo-R1を提案する。
論文 参考訳(メタデータ) (2025-09-26T07:01:12Z) - Recognition through Reasoning: Reinforcing Image Geo-localization with Large Vision-Language Models [47.98900725310249]
新しいパイプラインは、多様なソーシャルメディアイメージを使用して推論指向のジオローカライゼーションデータセットMP16-Reasonを構築する。
GLOBEには、ローカライズビリティアセスメント、ビジュアルキュー推論、位置情報の精度を共同で向上するタスク固有の報酬が組み込まれている。
その結果,GLOBEはジオローカライゼーションタスクにおいて,最先端のオープンソースLVLMよりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-06-17T16:07:58Z) - SegEarth-R1: Geospatial Pixel Reasoning via Large Language Model [61.97017867656831]
暗黙的な問合せと推論を可能にし,対象領域のマスクを生成する新しいタスク,すなわち地理空間的画素推論を導入する。
我々は,5,434枚の手動アノテート画像マスクと3万枚以上の暗黙的な質問応答ペアからなる,EarthReasonという,最初の大規模ベンチマークデータセットを構築し,リリースする。
SegEarth-R1は、推論タスクと参照セグメンテーションタスクの両方で最先端のパフォーマンスを実現し、従来のLCMベースのセグメンテーション手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2025-04-13T16:36:47Z) - SegDesicNet: Lightweight Semantic Segmentation in Remote Sensing with Geo-Coordinate Embeddings for Domain Adaptation [0.5461938536945723]
リモートセマンティックセマンティックセグメンテーションのための新しい教師なしドメイン適応手法を提案する。
提案するSegDesicNetモジュールは、単位球上に投影された座標のGRID位置符号化を遅らせ、ドメイン損失を得る。
我々のアルゴリズムは,人工ニューラルネットワークと物理世界の人間の理解とのモデリング格差を減らそうとしている。
論文 参考訳(メタデータ) (2025-03-11T11:01:18Z) - CLIP the Gap: A Single Domain Generalization Approach for Object
Detection [60.20931827772482]
単一ドメインの一般化(Single Domain Generalization)は、単一のソースドメイン上でモデルをトレーニングすることで、目に見えないターゲットドメインに一般化する問題に取り組む。
本稿では、事前学習された視覚言語モデルを用いて、テキストプロンプトを介して意味領域の概念を導入することを提案する。
本手法は,検出器のバックボーンから抽出した特徴に作用する意味的拡張戦略と,テキストに基づく分類損失によって実現される。
論文 参考訳(メタデータ) (2023-01-13T12:01:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。