論文の概要: GRASP: Geospatial pixel Reasoning viA Structured Policy learning
- arxiv url: http://arxiv.org/abs/2508.17102v1
- Date: Sat, 23 Aug 2025 18:05:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.342221
- Title: GRASP: Geospatial pixel Reasoning viA Structured Policy learning
- Title(参考訳): GRASP: Geospatial pixel Reasoning viA Structured Policy Learning
- Authors: Chengjie Jiang, Yunqi Zhou, Jiafeng Yan, Jing Li,
- Abstract要約: 地理空間的画素推論(Geospatial pixel reasoning)は、自然言語命令から直接セグメンテーションマスクを生成することを目的とした、生まれたばかりのリモートセンシングタスクである。
我々は、構造化されたポリシー学習フレームワークGRASPを紹介する。
我々の設計では、マルチモーダルな大規模言語モデルがまず、視覚言語命令からタスク関連境界ボックスと正の点を出力する。
これらの出力はトレーニング済みのセグメンテーションモデルに渡され、最終的なマスクを生成するプロンプトとして消費される。
- 参考スコア(独自算出の注目度): 2.7597817780926914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Geospatial pixel reasoning is a nascent remote-sensing task that aims to generate segmentation masks directly from natural-language instructions. Prevailing MLLM-based systems co-train a language model and a mask decoder with dense pixel supervision, which is expensive and often weak on out-of-domain (OOD) data. We introduce GRASP, a structured policy-learning framework. In our design, a multimodal large language model first emits task-relevant bounding boxes and positive points from a vision-language instruction. These outputs are then passed to a pre-trained segmentation model, which consumes them as prompts to generate the final mask. Instead of supervised fine-tuning, we optimize the system purely with reinforcement learning: the model is trained solely with GRPO, guided by format rewards and accuracy rewards computed on boxes and points (no mask supervision). This leverages strong priors in foundation models, minimizes trainable parameters, and enables learning from inexpensive annotations. We additionally curate GRASP-1k, which contains reasoning-intensive queries, detailed reasoning traces, and fine-grained segmentation annotations. Evaluations on both in-domain and out-of-domain test sets show state-of-the-art results: about 4% improvement in-domain and up to 54% on OOD benchmarks. The experiment results evidence our model's robust generalization and demonstrate that complex geospatial segmentation behaviors can be learned via RL from weak spatial cues. Code and the dataset will be released open-source.
- Abstract(参考訳): 地理空間的画素推論(Geospatial pixel reasoning)は、自然言語命令から直接セグメンテーションマスクを生成することを目的とした、生まれたばかりのリモートセンシングタスクである。
MLLMベースのシステムは、高解像度の画素管理を備えた言語モデルとマスクデコーダを併用する。
我々は、構造化されたポリシー学習フレームワークGRASPを紹介する。
我々の設計では、マルチモーダルな大規模言語モデルがまず、視覚言語命令からタスク関連境界ボックスと正の点を出力する。
これらの出力はトレーニング済みのセグメンテーションモデルに渡され、最終的なマスクを生成するプロンプトとして消費される。
モデルはGRPOでのみ訓練され、ボックスやポイント上で計算された形式報酬と精度報酬(マスク監督なし)によってガイドされる。
これにより、ファンデーションモデルの強い先行性を活用し、トレーニング可能なパラメータを最小限にし、安価なアノテーションから学ぶことができる。
さらに、推論集約クエリ、詳細な推論トレース、きめ細かいセグメンテーションアノテーションを含むGRASP-1kをキュレートする。
ドメイン内テストセットとドメイン外テストセットの両方での評価は、最先端の結果を示している。
実験の結果、我々のモデルの堅牢な一般化が証明され、複雑な地理空間分割の挙動が弱い空間的手がかりからRLを通して学習できることが証明された。
コードとデータセットはオープンソースとしてリリースされる。
関連論文リスト
- Enhancing Spatial Reasoning in Vision-Language Models via Chain-of-Thought Prompting and Reinforcement Learning [0.42855555838080844]
本研究では,視覚言語モデル(VLM)の空間的推論能力について,Chain-of-Thoughtプロンプトと強化学習を通して検討した。
モデルが解答の前に推論ステップを生成する単純なCoT形式は、モデルの本来の性能を損なう可能性がある。
対照的に、シーングラフ(SceneGraph CoT)に基づく構造化マルチステージプロンプトは空間推論の精度を大幅に向上させる。
論文 参考訳(メタデータ) (2025-07-06T10:51:12Z) - ReGUIDE: Data Efficient GUI Grounding via Spatial Reasoning and Search [53.40810298627443]
ReGUIDEは、MLLMが自己生成的推論と空間認識的批判を通じてデータを効率的に学習することを可能にするWebグラウンドのためのフレームワークである。
実験により、ReGUIDEは複数のベンチマークでWebグラウンド性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-05-21T08:36:18Z) - Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation [105.23631749213729]
低データ体制における教師なし事前学習のための新しい手法を提案する。
最近成功したプロンプト技術に触発されて,言語ビジョンプロンプトを用いた教師なし事前学習法を導入した。
提案手法は,低データ方式のCNNモデルよりも高速に収束し,性能がよいことを示す。
論文 参考訳(メタデータ) (2024-05-22T06:48:43Z) - Annotation Free Semantic Segmentation with Vision Foundation Models [11.026377387506216]
既存の基盤モデルを用いて,任意のセマンティックセグメンテーションデータセットに対してフリーアノテーションを生成する。
CLIPを使ってオブジェクトとSAMを検出し、高品質なオブジェクトマスクを生成します。
我々のアプローチは、最小限のトレーニングで事前訓練された視覚エンコーダに言語ベースのセマンティクスをもたらすことができる。
論文 参考訳(メタデータ) (2024-03-14T11:57:58Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - A Simple Framework for Open-Vocabulary Segmentation and Detection [85.21641508535679]
我々は,異なるセグメンテーションと検出データセットから共同で学習する,シンプルなオープン語彙検出フレームワークOpenSeeDを提案する。
まず、事前学習されたテキストエンコーダを導入し、視覚概念を2つのタスクにエンコードし、それらの共通意味空間を学習する。
プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。
論文 参考訳(メタデータ) (2023-03-14T17:58:34Z) - Grounding Visual Representations with Texts for Domain Generalization [9.554646174100123]
相互モダリティの監督は、ドメイン不変の視覚表現の接地に成功することができる。
提案手法は,5つのマルチドメインデータセットの平均性能を1位に評価する。
論文 参考訳(メタデータ) (2022-07-21T03:43:38Z) - Remote Sensing Images Semantic Segmentation with General Remote Sensing
Vision Model via a Self-Supervised Contrastive Learning Method [13.479068312825781]
リモートセマンティックセグメンテーションのためのGlobal style and Local matching Contrastive Learning Network (GLCNet)を提案する。
具体的には、画像レベルの表現をより良く学習するために、グローバルスタイルのコントラストモジュールが使用される。
コントラストモジュールにマッチするローカル特徴は、セマンティックセグメンテーションに有用なローカル領域の表現を学習するために設計されている。
論文 参考訳(メタデータ) (2021-06-20T03:03:40Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。