論文の概要: GRASP: Guided Region-Aware Sparse Prompting for Adapting MLLMs to Remote Sensing
- arxiv url: http://arxiv.org/abs/2601.17089v1
- Date: Fri, 23 Jan 2026 10:12:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.221239
- Title: GRASP: Guided Region-Aware Sparse Prompting for Adapting MLLMs to Remote Sensing
- Title(参考訳): GRASP:MLLMをリモートセンシングに適用するためのガイド付き地域対応スパースプロンプト
- Authors: Qigan Sun, Chaoning Zhang, Jianwei Zhang, Xudong Wang, Jiehui Xie, Pengcheng Zheng, Haoyu Wang, Sungyoung Lee, Chi-lok Andy Tai, Yang Yang, Heng Tao Shen,
- Abstract要約: GRASP(Guid Region-Aware Sparse Prompting)と呼ばれるパラメータ効率細調整(PEFT)戦略を提案する。
GRASPは、凍結した視覚的トークングリッドから抽出された空間ブロックに関連する空間的構造化されたソフトプロンプトを導入する。
複数のRSVQAベンチマークの実験では、GRASPは既存の微調整やプロンプトベースの手法と比較して競争性能が向上している。
- 参考スコア(独自算出の注目度): 50.961694646995376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, Multimodal Large Language Models (MLLMs) have made significant progress in visual question answering tasks. However, directly applying existing fine-tuning methods to remote sensing (RS) images often leads to issues such as overfitting on background noise or neglecting target details. This is primarily due to the large-scale variations, sparse target distributions, and complex regional semantic features inherent in RS images. These challenges limit the effectiveness of MLLMs in RS tasks. To address these challenges, we propose a parameter-efficient fine-tuning (PEFT) strategy called Guided Region-Aware Sparse Prompting (GRASP). GRASP introduces spatially structured soft prompts associated with spatial blocks extracted from a frozen visual token grid. Through a question-guided sparse fusion mechanism, GRASP dynamically aggregates task-specific context into a compact global prompt, enabling the model to focus on relevant regions while filtering out background noise. Extensive experiments on multiple RSVQA benchmarks show that GRASP achieves competitive performance compared to existing fine-tuning and prompt-based methods while maintaining high parameter efficiency.
- Abstract(参考訳): 近年,Multimodal Large Language Models (MLLM) は視覚的質問応答タスクにおいて大きな進歩を遂げている。
しかし、既存の微調整手法を直接リモートセンシング(RS)画像に適用すると、背景雑音の過度な適合やターゲットの詳細の無視といった問題が発生することが多い。
これは主に、RS画像に固有の大規模変動、スパースターゲット分布、複雑な地域意味的特徴による。
これらの課題は、RSタスクにおけるMLLMの有効性を制限する。
これらの課題に対処するため, GRASP ( Guided Region-Aware Sparse Prompting) と呼ばれるパラメータ効率の高い細調整戦略を提案する。
GRASPは、凍結した視覚的トークングリッドから抽出された空間ブロックに関連する空間的構造化されたソフトプロンプトを導入する。
問合せ誘導されたスパース融合機構を通じて、GRASPは動的にタスク固有のコンテキストをコンパクトなグローバルプロンプトに集約し、背景ノイズをフィルタリングしながら関連する領域に集中できるようにする。
複数のRSVQAベンチマークにおいて、GRASPは、パラメータ効率を高く保ちながら、既存の微調整およびプロンプトベースの手法と比較して、競争性能が向上することを示した。
関連論文リスト
- ZoomEarth: Active Perception for Ultra-High-Resolution Geospatial Vision-Language Tasks [49.99788276124186]
既存の動的解像度とトークンプルーニング法は受動的知覚パラダイムによって制約される。
本稿では,UHR RS処理におけるアクティブな認識に適した大規模ベンチマークデータセット LRS-GRO を提案する。
ZoomEarthは,より詳細なガイダンスを提供する新しい地域誘導報酬を用いた適応的収穫・造粒フレームワークである。
論文 参考訳(メタデータ) (2025-11-15T15:47:46Z) - FineRS: Fine-grained Reasoning and Segmentation of Small Objects with Reinforcement Learning [62.11389260206383]
textscFineRSは、非常に小さなオブジェクトをセグメント化するための2段階のMLLMベースの強化学習フレームワークである。
textscFineRS-4kは,属性レベルの推論に基づくMLLMの評価と,微妙で小規模なターゲットに対する画素レベルのセグメンテーションのための新しいデータセットである。
論文 参考訳(メタデータ) (2025-10-24T10:14:17Z) - GeoMag: A Vision-Language Model for Pixel-level Fine-Grained Remote Sensing Image Parsing [5.653111274028541]
リモートセンシングのための汎用大規模モデルフレームワークGeoMagを提案する。
GeoMagは、リモートセンシング画像解析を効果的に行うために、プロンプトセマンティクスに基づく注意範囲に焦点を当てる。
このアプローチは、重要なターゲット領域に対するモデルの認識を改善し、背景冗長性を抑え、高分解能RS画像の解釈の計算コストを削減する。
論文 参考訳(メタデータ) (2025-07-08T11:21:03Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Learning to Aggregate Multi-Scale Context for Instance Segmentation in
Remote Sensing Images [28.560068780733342]
特徴抽出のプロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。
提案モデルは,高密度特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),階層的関心抽出器(HRoIE)の3つの軽量プラグアンドプレイモジュールを利用する。
論文 参考訳(メタデータ) (2021-11-22T08:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。