論文の概要: GeoMag: A Vision-Language Model for Pixel-level Fine-Grained Remote Sensing Image Parsing
- arxiv url: http://arxiv.org/abs/2507.05887v1
- Date: Tue, 08 Jul 2025 11:21:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.942264
- Title: GeoMag: A Vision-Language Model for Pixel-level Fine-Grained Remote Sensing Image Parsing
- Title(参考訳): GeoMag: 画素レベルの細粒度リモートセンシング画像解析のための視覚言語モデル
- Authors: Xianzhi Ma, Jianhui Li, Changhua Pei, Hao Liu,
- Abstract要約: リモートセンシングのための汎用大規模モデルフレームワークGeoMagを提案する。
GeoMagは、リモートセンシング画像解析を効果的に行うために、プロンプトセマンティクスに基づく注意範囲に焦点を当てる。
このアプローチは、重要なターゲット領域に対するモデルの認識を改善し、背景冗長性を抑え、高分解能RS画像の解釈の計算コストを削減する。
- 参考スコア(独自算出の注目度): 5.653111274028541
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The application of Vision-Language Models (VLMs) in remote sensing (RS) image understanding has achieved notable progress, demonstrating the basic ability to recognize and describe geographical entities. However, existing RS-VLMs are mostly limited to image-level and region-level tasks, lacking the capability to handle pixel-level tasks and performing poorly in small-object recognition scenarios. Moreover, RS-VLMs consume significant computational resources when processing high-resolution RS images, further restricting their practical applicability. In this context, we propose GeoMag (Geographical Magnifier), an end-to-end general-purpose large model framework for RS. GeoMag dynamically focuses the attention scope based on prompt semantics to effectively perform remote sensing image parsing across multiple levels of granularity. This method introduces Task-driven Multi-granularity Resolution Adjustment (TMRA) and Prompt-guided Semantic-aware Cropping (PSC), which adaptively reduce the spatial resolution of task-irrelevant regions while enhancing the visual representation of task-relevant areas. This approach improves the model's perception of critical target regions, suppresses background redundancy, and reduces the computational cost of interpreting high-resolution RS imagery. Extensive comparative experiments on 10 benchmarks demonstrate that GeoMag not only excels in handling pixel-level tasks but also maintains competitive performance across tasks of other granularities compared to existing RS-VLMs.
- Abstract(参考訳): リモートセンシング(RS)画像理解における視覚言語モデル(VLM)の適用は、地理的実体を認識・記述する基本的な能力を実証し、顕著な進歩を遂げた。
しかし、既存のRS-VLMは画像レベルのタスクと領域レベルのタスクに限られており、ピクセルレベルのタスクを処理できず、小さなオブジェクト認識シナリオでは性能が良くない。
さらに、RS-VLMは高解像度のRS画像を処理する際に重要な計算資源を消費し、実用性をさらに制限する。
この文脈では、RSのためのエンドツーエンドの汎用大規模モデルフレームワークであるGeoMag(GeoMag)を提案する。
GeoMagは、複数のレベルの粒度にわたるリモートセンシング画像解析を効果的に行うために、プロンプトセマンティクスに基づく注意範囲を動的に重視する。
本手法では,タスク関連領域の視覚的表現を高めつつ,タスク関連領域の空間分解能を適応的に低減するタスク駆動型多粒度分解調整(TMRA)とプロンプト誘導セマンティック認識クロップ(PSC)を導入する。
このアプローチは、重要なターゲット領域に対するモデルの認識を改善し、背景冗長性を抑え、高分解能RS画像の解釈の計算コストを削減する。
10のベンチマークでの大規模な比較実験では、GeoMagはピクセルレベルのタスクを扱うのに優れるだけでなく、既存のRS-VLMと比較して、他の粒度のタスクとの競合性能も維持している。
関連論文リスト
- SeG-SR: Integrating Semantic Knowledge into Remote Sensing Image Super-Resolution via Vision-Language Model [23.383837540690823]
高解像度(HR)リモートセンシング画像は、都市計画や環境モニタリングなど幅広い用途において重要な役割を担っている。
センサーやデータ転送リンクの制限により、実際に取得された画像は分解能の低下に悩まされることが多い。
RSISR(Remote Sensing Image Super-Resolution)は、ローレゾリューション(LR)入力からHRイメージを再構築することを目的としており、直接HR画像を取得するためのコスト効率の良い代替手段を提供する。
論文 参考訳(メタデータ) (2025-05-29T02:38:34Z) - When Large Vision-Language Model Meets Large Remote Sensing Imagery: Coarse-to-Fine Text-Guided Token Pruning [31.696397337675847]
LVLM(Large Vision-Language Models)は通常、画像処理に限定された事前定義されたグリッドを使用する。
動的画像ピラミッド(DIP)を統合したテキスト誘導型トークンプルーニング手法を提案する。
提案手法は,同一データを用いた4つのデータセットにおける既存の高分解能戦略よりも優れる。
論文 参考訳(メタデータ) (2025-03-10T17:51:16Z) - GeoPixel: Pixel Grounding Large Multimodal Model in Remote Sensing [32.85223015863783]
GeoPixelは、ピクセルレベルのグラウンド化をサポートするエンドツーエンドの高解像度RS-LMMである。
任意のアスペクト比で最大4K HD解像度をサポートし、高精度RS画像解析に最適である。
GeoPixelはピクセルレベルの理解において優れた性能を示し、単一ターゲットとマルチターゲットのセグメンテーションタスクの両方において既存のLMMを上回っている。
論文 参考訳(メタデータ) (2025-01-23T18:59:30Z) - Efficient Visual State Space Model for Image Deblurring [99.54894198086852]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
提案したEVSSMは、ベンチマークデータセットや実世界の画像に対する最先端の手法に対して好意的に機能する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - RS-Mamba for Large Remote Sensing Image Dense Prediction [58.12667617617306]
本稿では,大規模なVHRリモートセンシング画像における高密度予測タスクに対するリモートセンシング・マンバ(RSM)を提案する。
RSMは、線形複雑度でリモートセンシング画像のグローバルなコンテキストを捉えるように設計されている。
我々のモデルは、大規模なリモートセンシング画像の変換器ベースモデルよりも効率と精度がよい。
論文 参考訳(メタデータ) (2024-04-03T12:06:01Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。