論文の概要: Geospatial-Reasoning-Driven Vocabulary-Agnostic Remote Sensing Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2602.08206v1
- Date: Mon, 09 Feb 2026 02:09:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.027029
- Title: Geospatial-Reasoning-Driven Vocabulary-Agnostic Remote Sensing Semantic Segmentation
- Title(参考訳): 地理空間推論駆動語彙-リモートセンシングセマンティックセマンティックセマンティックセマンティックセグメンテーション
- Authors: Chufeng Zhou, Jian Wang, Xinyuan Liu, Xiaokang Zhang,
- Abstract要約: オープンボキャブラリセマンティックセグメンテーションはリモートセンシングにおける有望な研究方向として浮上している。
本研究では,Geospatial Reasoning Chain-of-Thought(GR-CoT)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 13.743073097114461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary semantic segmentation has emerged as a promising research direction in remote sensing, enabling the recognition of diverse land-cover types beyond pre-defined category sets. However, existing methods predominantly rely on the passive mapping of visual features and textual embeddings. This ``appearance-based" paradigm lacks geospatial contextual awareness, leading to severe semantic ambiguity and misclassification when encountering land-cover classes with similar spectral features but distinct semantic attributes. To address this, we propose a Geospatial Reasoning Chain-of-Thought (GR-CoT) framework designed to enhance the scene understanding capabilities of Multimodal Large Language Models (MLLMs), thereby guiding open-vocabulary segmentation models toward precise mapping. The framework comprises two collaborative components: an offline knowledge distillation stream and an online instance reasoning stream. The offline stream establishes fine-grained category interpretation standards to resolve semantic conflicts between similar land-cover types. During online inference, the framework executes a sequential reasoning process involving macro-scenario anchoring, visual feature decoupling, and knowledge-driven decision synthesis. This process generates an image-adaptive vocabulary that guides downstream models to achieve pixel-level alignment with correct geographical semantics. Extensive experiments on the LoveDA and GID5 benchmarks demonstrate the superiority of our approach.
- Abstract(参考訳): オープンボキャブラリセマンティックセグメンテーションはリモートセンシングにおいて有望な研究方向として現れており、事前に定義されたカテゴリセットを超えて多様な土地被覆タイプを認識できる。
しかし、既存の手法は主に視覚的特徴とテキスト埋め込みの受動的マッピングに依存している。
この「外観に基づく」パラダイムは地理空間的文脈認識を欠き、類似のスペクトル特性を持つ土地被覆クラスに遭遇する際、深刻な意味的曖昧さと誤分類をもたらす。
そこで本稿では,マルチモーダル大規模言語モデル (MLLM) のシーン理解能力の向上を目的としたGeospatial Reasoning Chain-of-Thought (GR-CoT) フレームワークを提案する。
このフレームワークは、オフラインの知識蒸留ストリームとオンラインのインスタンス推論ストリームの2つの共同コンポーネントで構成されている。
オフラインストリームは、類似の土地被覆型間のセマンティック・コンフリクトを解決するために、きめ細かいカテゴリ解釈標準を確立する。
オンライン推論において、このフレームワークはマクロシナリオアンカー、視覚的特徴分離、知識駆動型意思決定合成を含むシーケンシャルな推論プロセスを実行する。
このプロセスは、下流のモデルを誘導し、正確な地理的意味論とピクセルレベルのアライメントを実現する画像適応語彙を生成する。
LoveDAとGID5ベンチマークの大規模な実験は、我々のアプローチの優位性を実証している。
関連論文リスト
- Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation [120.23172120151821]
本稿では,事前学習した拡散モデルのバックボーンから視覚的特徴と意味的特徴を分離するための新しいアプローチを提案する。
注釈付きセマンティックと視覚対応を備えた画像ペアを構築する自動パイプラインを導入する。
被験者駆動画像生成における視覚的不整合を定量化する新しい指標であるビジュアルセマンティックマッチングを提案する。
論文 参考訳(メタデータ) (2025-09-26T07:11:55Z) - GS: Generative Segmentation via Label Diffusion [59.380173266566715]
言語駆動のイメージセグメンテーションは、自然言語表現に対応する画像の領域を分割するモデルを必要とする、視覚言語理解の基本的なタスクである。
近年の拡散モデルがこの領域に導入されているが、既存のアプローチは画像中心のままである。
生成タスクとしてセグメンテーション自体を定式化する新しいフレームワークであるGS(Generative Label)を提案する。
実験の結果,GSは既存の差別的・拡散的手法を著しく上回り,言語駆動セグメンテーションのための新たな最先端技術が確立された。
論文 参考訳(メタデータ) (2025-08-27T16:28:15Z) - Constrained Prompt Enhancement for Improving Zero-Shot Generalization of Vision-Language Models [57.357091028792325]
ウェブスケールのデータに基づいて事前訓練された視覚言語モデル(VLM)は、ゼロショットの一般化を約束するが、しばしば意味的ミスアライメントに悩まされる。
視覚・テクストアライメントを改善するために,制約付きプロンプトエンハンスメント(CPE)法を提案する。
提案手法はTGSSG(Topology-Guided Synonymous Semantic Generation)とCADRS(Calegory-Agnostic Discriminative Region Selection)の2つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-08-24T15:45:22Z) - HyperPath: Knowledge-Guided Hyperbolic Semantic Hierarchy Modeling for WSI Analysis [21.380034877048644]
双曲空間における意味階層のモデル化を導くために,テキスト記述から知識を統合する新しい手法であるHyperPathを提案する。
本手法は,病理視覚言語基盤モデルから抽出した視覚的特徴とテキスト的特徴を双曲空間に適用する。
提案手法は,WSI解析におけるハイパーボリック埋め込みの可能性を強調し,既存の手法と比較してタスク間での優れた性能を実現する。
論文 参考訳(メタデータ) (2025-06-19T15:30:33Z) - Semantic-Space-Intervened Diffusive Alignment for Visual Classification [11.621655970763467]
クロスモーダルアライメントは視覚的分類を改善する効果的なアプローチである。
本稿では,セマンティック空間間微分アライメント法(SeDA)を提案する。
実験結果から,SeDAはクロスモーダルな特徴アライメントを実現し,既存手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2025-05-09T01:41:23Z) - Training-Free Open-Vocabulary Segmentation with Offline Diffusion-Augmented Prototype Generation [44.008094698200026]
FreeDAはオープン語彙セマンティックセグメンテーションのためのトレーニング不要な拡散拡張手法である。
FreeDAは5つのデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-09T18:00:25Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Graph Adaptive Semantic Transfer for Cross-domain Sentiment
Classification [68.06496970320595]
クロスドメイン感情分類(CDSC)は、ソースドメインから学んだ伝達可能なセマンティクスを使用して、ラベルなしのターゲットドメインにおけるレビューの感情を予測することを目的としている。
本稿では、単語列と構文グラフの両方からドメイン不変セマンティクスを学習できる適応型構文グラフ埋め込み法であるグラフ適応意味伝達(GAST)モデルを提案する。
論文 参考訳(メタデータ) (2022-05-18T07:47:01Z) - Integrating Language Guidance into Vision-based Deep Metric Learning [78.18860829585182]
埋め込み空間として意味的類似性を符号化した距離空間を学習することを提案する。
これらの空間は、トレーニング中に見られるもの以外のクラスに転送可能であるべきである。
これにより、学習された埋め込み空間は不完全な意味的コンテキストを符号化し、クラス間の意味的関係を誤って表現する。
論文 参考訳(メタデータ) (2022-03-16T11:06:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。