論文の概要: GRASP: Geospatial pixel Reasoning viA Structured Policy learning
- arxiv url: http://arxiv.org/abs/2508.17102v2
- Date: Tue, 28 Oct 2025 06:06:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.088228
- Title: GRASP: Geospatial pixel Reasoning viA Structured Policy learning
- Title(参考訳): GRASP: Geospatial pixel Reasoning viA Structured Policy Learning
- Authors: Chengjie Jiang, Yunqi Zhou, Jiafeng Yan, Jing Li, Jiayang Li, Yue Zhou, Hongjie He, Jonathan Li,
- Abstract要約: GRASPは、マルチモーダルな大規模言語モデルと事前訓練されたセグメンテーションモデルを統合する、構造化されたポリシー学習フレームワークである。
PRIMEは、教師付き微調整を強化学習に置き換える訓練パラダイムであり、推論や接地行動とタスク目標との整合性を改善する。
GRASP-1kは、推論集約的なクエリ、推論トレース、きめ細かいマスクを備えた、完全にドメイン外ベンチマークである。
- 参考スコア(独自算出の注目度): 16.023628299873494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Geospatial pixel reasoning aims to generate segmentation masks in remote sensing imagery directly from natural-language instructions. Most existing approaches follow a paradigm that fine-tunes multimodal large language models under supervision with dense pixel-level masks as ground truth. While effective within the training data distribution, this design suffers from two main drawbacks: (1) the high cost of large-scale dense mask annotation, and (2) the limited generalization capability of supervised fine-tuning in out-of-domain scenarios. To address these issues, we propose GRASP, a structured policy-learning framework that integrates a multimodal large language model with a pretrained segmentation model in a cascaded manner. To enhance generalization, we introduce PRIME, a training paradigm that replaces supervised fine-tuning with reinforcement learning to better align reasoning and grounding behaviors with task objectives. To reduce annotation costs, we design BoP-Rewards, which substitutes dense mask labels with bounding box and positive points. It further verifies outputs through two complementary signals: format, which constrains the reasoning and grounding structure to remain syntactically parsable, and accuracy, which evaluates the quality of predicted boxes and points. For evaluation, we train our method and all baselines on EarthReason and GeoPixInstruct, constructing an in-domain benchmark by merging their test sets. We further release GRASP-1k, a fully out-of-domain benchmark with reasoning-intensive queries, reasoning traces, and fine-grained masks. Experimental results demonstrate state-of-the-art (SOTA) in-domain performance and up to 54\% improvement in out-of-domain scenarios, confirming that reinforcement learning with cost-aware rewards provides a robust and scalable paradigm for geospatial pixel reasoning. All code and datasets will be released publicly.
- Abstract(参考訳): 地理空間的画素推論は、自然言語命令から直接リモートセンシング画像のセグメンテーションマスクを生成することを目的としている。
既存のアプローチの多くは、高密度のピクセルレベルのマスクを根拠として、監督下にあるマルチモーダルな大規模言語モデルを微調整するパラダイムに従っている。
この設計は,トレーニングデータ配信において有効であるが,(1)大規模マスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスのマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスのコストが高い。
これらの問題に対処するため、我々は、多モーダルな言語モデルと事前訓練されたセグメンテーションモデルを統合する構造化されたポリシー学習フレームワークGRASPを提案する。
汎用性を高めるために,教師付き微調整を強化学習に置き換える訓練パラダイムであるPRIMEを導入し,推論や接地行動とタスク目標との整合性を向上する。
アノテーションのコストを削減するため,高密度マスクラベルをバウンディングボックスと正の点で置き換えるBoP-Rewardsを設計する。
さらに、2つの補完的な信号を通して出力を検証する:形式は推論と接地構造を構文的に解析可能なままにすることを制約し、精度は予測されたボックスと点の品質を評価する。
評価のために,EarthReasonとGeoPixInstructをベースラインとして,テストセットをマージしてドメイン内ベンチマークを構築する。
さらにGRASP-1kは、推論集約的なクエリ、推論トレース、きめ細かいマスクを備えた、完全にオフオブドメインのベンチマークです。
実験により、ドメイン内パフォーマンス(SOTA)を実証し、ドメイン外シナリオを最大54倍改善し、コスト認識による強化学習が地理空間的ピクセル推論の堅牢でスケーラブルなパラダイムを提供することを確認した。
すべてのコードとデータセットが公開されます。
関連論文リスト
- Enhancing Spatial Reasoning in Vision-Language Models via Chain-of-Thought Prompting and Reinforcement Learning [0.42855555838080844]
本研究では,視覚言語モデル(VLM)の空間的推論能力について,Chain-of-Thoughtプロンプトと強化学習を通して検討した。
モデルが解答の前に推論ステップを生成する単純なCoT形式は、モデルの本来の性能を損なう可能性がある。
対照的に、シーングラフ(SceneGraph CoT)に基づく構造化マルチステージプロンプトは空間推論の精度を大幅に向上させる。
論文 参考訳(メタデータ) (2025-07-06T10:51:12Z) - ReGUIDE: Data Efficient GUI Grounding via Spatial Reasoning and Search [53.40810298627443]
ReGUIDEは、MLLMが自己生成的推論と空間認識的批判を通じてデータを効率的に学習することを可能にするWebグラウンドのためのフレームワークである。
実験により、ReGUIDEは複数のベンチマークでWebグラウンド性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-05-21T08:36:18Z) - Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation [105.23631749213729]
低データ体制における教師なし事前学習のための新しい手法を提案する。
最近成功したプロンプト技術に触発されて,言語ビジョンプロンプトを用いた教師なし事前学習法を導入した。
提案手法は,低データ方式のCNNモデルよりも高速に収束し,性能がよいことを示す。
論文 参考訳(メタデータ) (2024-05-22T06:48:43Z) - Annotation Free Semantic Segmentation with Vision Foundation Models [11.026377387506216]
既存の基盤モデルを用いて,任意のセマンティックセグメンテーションデータセットに対してフリーアノテーションを生成する。
CLIPを使ってオブジェクトとSAMを検出し、高品質なオブジェクトマスクを生成します。
我々のアプローチは、最小限のトレーニングで事前訓練された視覚エンコーダに言語ベースのセマンティクスをもたらすことができる。
論文 参考訳(メタデータ) (2024-03-14T11:57:58Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - A Simple Framework for Open-Vocabulary Segmentation and Detection [85.21641508535679]
我々は,異なるセグメンテーションと検出データセットから共同で学習する,シンプルなオープン語彙検出フレームワークOpenSeeDを提案する。
まず、事前学習されたテキストエンコーダを導入し、視覚概念を2つのタスクにエンコードし、それらの共通意味空間を学習する。
プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。
論文 参考訳(メタデータ) (2023-03-14T17:58:34Z) - Grounding Visual Representations with Texts for Domain Generalization [9.554646174100123]
相互モダリティの監督は、ドメイン不変の視覚表現の接地に成功することができる。
提案手法は,5つのマルチドメインデータセットの平均性能を1位に評価する。
論文 参考訳(メタデータ) (2022-07-21T03:43:38Z) - Remote Sensing Images Semantic Segmentation with General Remote Sensing
Vision Model via a Self-Supervised Contrastive Learning Method [13.479068312825781]
リモートセマンティックセグメンテーションのためのGlobal style and Local matching Contrastive Learning Network (GLCNet)を提案する。
具体的には、画像レベルの表現をより良く学習するために、グローバルスタイルのコントラストモジュールが使用される。
コントラストモジュールにマッチするローカル特徴は、セマンティックセグメンテーションに有用なローカル領域の表現を学習するために設計されている。
論文 参考訳(メタデータ) (2021-06-20T03:03:40Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。