論文の概要: Bridging Semantics and Geometry: A Decoupled LVLM-SAM Framework for Reasoning Segmentation in Remote Sensing
- arxiv url: http://arxiv.org/abs/2512.19302v1
- Date: Mon, 22 Dec 2025 11:46:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.734156
- Title: Bridging Semantics and Geometry: A Decoupled LVLM-SAM Framework for Reasoning Segmentation in Remote Sensing
- Title(参考訳): ブリジング・セマンティクスと幾何学:リモートセンシングにおけるセグメンテーションの推論のための分離LVLM-SAMフレームワーク
- Authors: Xu Zhang, Junyao Ge, Yang Zheng, Kaitai Guo, Jimin Liang,
- Abstract要約: Think2Seg-RSはLVLMプロンプトをトレーニングし、構造化された幾何学的プロンプトを介して凍ったセグメンション・アプライシング・モデル(SAM)を制御するフレームワークである。
このフレームワークは、EarthReasonデータセット上で最先端のパフォーマンスを達成する。
コンパクトセグメンタは、意味レベルの監督の下でより大きなセグメンタより優れており、異種空中背景において負のプロンプトは効果がない。
- 参考スコア(独自算出の注目度): 8.731693840957716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) hold great promise for advancing remote sensing (RS) analysis, yet existing reasoning segmentation frameworks couple linguistic reasoning and pixel prediction through end-to-end supervised fine-tuning, leading to weak geometric grounding and limited generalization across tasks. To address this, we developed Think2Seg-RS, a decoupled framework that trains an LVLM prompter to control a frozen Segment Anything Model (SAM) via structured geometric prompts. Through a mask-only reinforcement learning objective, the LVLM learns to translate abstract semantic reasoning into spatially grounded actions, achieving state-of-the-art performance on the EarthReason dataset. Remarkably, the learned prompting policy generalizes zero-shot to multiple referring segmentation benchmarks, exposing a distinct divide between semantic-level and instance-level grounding. We further found that compact segmenters outperform larger ones under semantic-level supervision, and that negative prompts are ineffective in heterogeneous aerial backgrounds. Together, these findings establish semantic-level reasoning segmentation as a new paradigm for geospatial understanding, opening the way toward unified, interpretable LVLM-driven Earth observation. Our code and model are available at https://github.com/Ricardo-XZ/Think2Seg-RS.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、リモートセンシング(RS)分析の進歩を大いに約束するが、既存の推論セグメンテーションフレームワークには、エンドツーエンドの教師付き微調整による言語推論と画素予測が組み込まれており、幾何学的な接地が弱く、タスク間の一般化が制限されている。
そこで我々は,LVLMプロンプトを学習して,構造化された幾何学的プロンプトを介して,凍ったセグメント・アプライシング・モデル(SAM)を制御する,分離されたフレームワークThink2Seg-RSを開発した。
マスクのみによる強化学習の目的を通じて、LVLMは抽象的なセマンティック推論を空間的に根拠付けられたアクションに変換することを学び、EarthReasonデータセット上で最先端のパフォーマンスを達成する。
興味深いことに、学習プロンプトポリシはゼロショットを複数の参照セグメンテーションベンチマークに一般化し、セグメンテーションレベルとインスタンスレベルのグラウンドニングの区別を明確にする。
さらに, セグメンタは, 意味レベルの監督下では大きなセグメンタよりも優れており, 不均一な背景下では負のプロンプトが有効でないことがわかった。
これらの知見は、空間的理解のための新しいパラダイムとして意味レベルの推論セグメンテーションを確立し、統一的で解釈可能なLVLMによる地球観測への道を開く。
私たちのコードとモデルはhttps://github.com/Ricardo-XZ/Think2Seg-RS.orgで公開されています。
関連論文リスト
- FineRS: Fine-grained Reasoning and Segmentation of Small Objects with Reinforcement Learning [62.11389260206383]
textscFineRSは、非常に小さなオブジェクトをセグメント化するための2段階のMLLMベースの強化学習フレームワークである。
textscFineRS-4kは,属性レベルの推論に基づくMLLMの評価と,微妙で小規模なターゲットに対する画素レベルのセグメンテーションのための新しいデータセットである。
論文 参考訳(メタデータ) (2025-10-24T10:14:17Z) - Reinforcing Video Reasoning Segmentation to Think Before It Segments [67.5703457389657]
本稿では,ビデオ推論セグメンテーションのためのLVLMであるVeason-R1を紹介する。
Veason-R1 は、Chain-of-Thought trajectories を付加した Group Relative Policy Optimization (O) を通じて訓練される。
空間的アライメントと時間的整合性を高める包括的報酬機構を組み込んだ。
Veason-R1は、複数のベンチマークで最先端のパフォーマンスを達成し、先行技術を上回っている。
論文 参考訳(メタデータ) (2025-08-15T15:34:56Z) - Think Before You Segment: An Object-aware Reasoning Agent for Referring Audio-Visual Segmentation [61.37076111486196]
Ref-AVSは、対象のオブジェクトを所定の参照表現に基づいて可聴ビデオに分割することを目的としている。
本稿では,タスクをThink-Ground-Segmentプロセスに分解するTGS-Agentを提案する。
Ref-Thinkerはマルチモーダル言語モデルであり、テキスト、視覚、聴覚の手がかりを推論することができる。
論文 参考訳(メタデータ) (2025-08-06T13:05:09Z) - IGL-DT: Iterative Global-Local Feature Learning with Dual-Teacher Semantic Segmentation Framework under Limited Annotation Scheme [4.247494613524502]
Semi-Supervised Semantic (SSSS)は、ラベル付き画像の小さなセットとラベルなしデータのより大きなプールを活用することにより、セグメンテーションの精度を向上させることを目的としている。
IGL-DTという2つの教師戦略を取り入れた新しい三分岐半教師付きセグメンテーションフレームワークを提案する。
本手法では,Global Context Learning と ResUnet を通した高レベルの意味指導にSwinUnet を用い,局所的学習を通じて詳細な特徴改善を行う。
論文 参考訳(メタデータ) (2025-04-14T01:51:29Z) - SegEarth-R1: Geospatial Pixel Reasoning via Large Language Model [61.97017867656831]
暗黙的な問合せと推論を可能にし,対象領域のマスクを生成する新しいタスク,すなわち地理空間的画素推論を導入する。
我々は,5,434枚の手動アノテート画像マスクと3万枚以上の暗黙的な質問応答ペアからなる,EarthReasonという,最初の大規模ベンチマークデータセットを構築し,リリースする。
SegEarth-R1は、推論タスクと参照セグメンテーションタスクの両方で最先端のパフォーマンスを実現し、従来のLCMベースのセグメンテーション手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2025-04-13T16:36:47Z) - Cross-Domain Semantic Segmentation with Large Language Model-Assisted Descriptor Generation [0.0]
LangSegはコンテキストに敏感できめ細かいサブクラス記述子を利用する新しいセマンティックセマンティックセマンティクス手法である。
我々はLangSegをADE20KとCOCO-Stuffという2つの挑戦的なデータセットで評価し、最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2025-01-27T20:02:12Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Guiding the PLMs with Semantic Anchors as Intermediate Supervision:
Towards Interpretable Semantic Parsing [57.11806632758607]
本稿では,既存の事前学習言語モデルを階層型デコーダネットワークに組み込むことを提案する。
第一原理構造をセマンティックアンカーとすることで、2つの新しい中間管理タスクを提案する。
いくつかのセマンティック解析ベンチマークで集中的な実験を行い、我々のアプローチがベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T07:27:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。