論文の概要: GeoMag: A Vision-Language Model for Pixel-level Fine-Grained Remote Sensing Image Parsing
- arxiv url: http://arxiv.org/abs/2507.05887v2
- Date: Fri, 18 Jul 2025 12:41:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 14:37:15.993106
- Title: GeoMag: A Vision-Language Model for Pixel-level Fine-Grained Remote Sensing Image Parsing
- Title(参考訳): GeoMag: 画素レベルの細粒度リモートセンシング画像解析のための視覚言語モデル
- Authors: Xianzhi Ma, Jianhui Li, Changhua Pei, Hao Liu,
- Abstract要約: リモートセンシングのための汎用大規模モデルフレームワークGeoMagを提案する。
GeoMagは、リモートセンシング画像解析を効果的に行うために、プロンプトセマンティクスに基づく注意範囲に焦点を当てる。
このアプローチは、重要なターゲット領域に対するモデルの認識を改善し、背景冗長性を抑え、高分解能RS画像の解釈の計算コストを削減する。
- 参考スコア(独自算出の注目度): 5.653111274028541
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The application of Vision-Language Models (VLMs) in remote sensing (RS) image understanding has achieved notable progress, demonstrating the basic ability to recognize and describe geographical entities. However, existing RS-VLMs are mostly limited to image-level and region-level tasks, lacking the capability to handle pixel-level tasks and performing poorly in small-object recognition scenarios. Moreover, RS-VLMs consume significant computational resources when processing high-resolution RS images, further restricting their practical applicability. In this context, we propose GeoMag (Geographical Magnifier), an end-to-end general-purpose large model framework for RS. GeoMag dynamically focuses the attention scope based on prompt semantics to effectively perform remote sensing image parsing across multiple levels of granularity. This method introduces Task-driven Multi-granularity Resolution Adjustment (TMRA) and Prompt-guided Semantic-aware Cropping (PSC), which adaptively reduce the spatial resolution of task-irrelevant regions while enhancing the visual representation of task-relevant areas. This approach improves the model's perception of critical target regions, suppresses background redundancy, and reduces the computational cost of interpreting high-resolution RS imagery. Extensive comparative experiments on 10 benchmarks demonstrate that GeoMag not only excels in handling pixel-level tasks but also maintains competitive performance across tasks of other granularities compared to existing RS-VLMs.
- Abstract(参考訳): リモートセンシング(RS)画像理解における視覚言語モデル(VLM)の適用は、地理的実体を認識・記述する基本的な能力を実証し、顕著な進歩を遂げた。
しかし、既存のRS-VLMは画像レベルのタスクと領域レベルのタスクに限られており、ピクセルレベルのタスクを処理できず、小さなオブジェクト認識シナリオでは性能が良くない。
さらに、RS-VLMは高解像度のRS画像を処理する際に重要な計算資源を消費し、実用性をさらに制限する。
この文脈では、RSのためのエンドツーエンドの汎用大規模モデルフレームワークであるGeoMag(GeoMag)を提案する。
GeoMagは、複数のレベルの粒度にわたるリモートセンシング画像解析を効果的に行うために、プロンプトセマンティクスに基づく注意範囲を動的に重視する。
本手法では,タスク関連領域の視覚的表現を高めつつ,タスク関連領域の空間分解能を適応的に低減するタスク駆動型多粒度分解調整(TMRA)とプロンプト誘導セマンティック認識クロップ(PSC)を導入する。
このアプローチは、重要なターゲット領域に対するモデルの認識を改善し、背景冗長性を抑え、高分解能RS画像の解釈の計算コストを削減する。
10のベンチマークでの大規模な比較実験では、GeoMagはピクセルレベルのタスクを扱うのに優れるだけでなく、既存のRS-VLMと比較して、他の粒度のタスクとの競合性能も維持している。
関連論文リスト
- SeG-SR: Integrating Semantic Knowledge into Remote Sensing Image Super-Resolution via Vision-Language Model [23.383837540690823]
高解像度(HR)リモートセンシング画像は、都市計画や環境モニタリングなど幅広い用途において重要な役割を担っている。
センサーやデータ転送リンクの制限により、実際に取得された画像は分解能の低下に悩まされることが多い。
RSISR(Remote Sensing Image Super-Resolution)は、ローレゾリューション(LR)入力からHRイメージを再構築することを目的としており、直接HR画像を取得するためのコスト効率の良い代替手段を提供する。
論文 参考訳(メタデータ) (2025-05-29T02:38:34Z) - GeoRSMLLM: A Multimodal Large Language Model for Vision-Language Tasks in Geoscience and Remote Sensing [33.19843463374473]
リモートセンシングにおける視覚言語モデル(VLM)は、従来のタスクにおいて大きな可能性を示している。
Referring Expression (REC) に長けている現在のモデルは、複雑な命令を含むタスクに苦労している。
本稿では、オープン語彙タスク(OVT)、表現タスク(RET)、記述対象タスク(DOT)を含むリモートセンシングビジョンランゲージタスクセット(RSVLTS)を紹介する。
本稿では, RSVLTS のセット・オブ・ポイント・アプローチと, 循環参照に基づく条件と自己拡張戦略を用いた新しい統一データ表現を提案する。
論文 参考訳(メタデータ) (2025-03-16T12:48:17Z) - When Large Vision-Language Model Meets Large Remote Sensing Imagery: Coarse-to-Fine Text-Guided Token Pruning [31.696397337675847]
LVLM(Large Vision-Language Models)は通常、画像処理に限定された事前定義されたグリッドを使用する。
動的画像ピラミッド(DIP)を統合したテキスト誘導型トークンプルーニング手法を提案する。
提案手法は,同一データを用いた4つのデータセットにおける既存の高分解能戦略よりも優れる。
論文 参考訳(メタデータ) (2025-03-10T17:51:16Z) - GeoPixel: Pixel Grounding Large Multimodal Model in Remote Sensing [32.85223015863783]
GeoPixelは、ピクセルレベルのグラウンド化をサポートするエンドツーエンドの高解像度RS-LMMである。
任意のアスペクト比で最大4K HD解像度をサポートし、高精度RS画像解析に最適である。
GeoPixelはピクセルレベルの理解において優れた性能を示し、単一ターゲットとマルチターゲットのセグメンテーションタスクの両方において既存のLMMを上回っている。
論文 参考訳(メタデータ) (2025-01-23T18:59:30Z) - Efficient Visual State Space Model for Image Deblurring [99.54894198086852]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
提案したEVSSMは、ベンチマークデータセットや実世界の画像に対する最先端の手法に対して好意的に機能する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - RS-Mamba for Large Remote Sensing Image Dense Prediction [58.12667617617306]
本稿では,大規模なVHRリモートセンシング画像における高密度予測タスクに対するリモートセンシング・マンバ(RSM)を提案する。
RSMは、線形複雑度でリモートセンシング画像のグローバルなコンテキストを捉えるように設計されている。
我々のモデルは、大規模なリモートセンシング画像の変換器ベースモデルよりも効率と精度がよい。
論文 参考訳(メタデータ) (2024-04-03T12:06:01Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Memory-augmented Deep Unfolding Network for Guided Image
Super-resolution [67.83489239124557]
誘導画像超解像(GISR)は、HR画像の誘導の下で低解像度(LR)目標画像の空間分解能を高めて高解像度(HR)目標画像を得る。
従来のモデルベース手法は主に画像全体を取り、HR目標画像とHRガイダンス画像との事前分布を仮定する。
HR目標画像上で2種類の事前性を持つGISRの最大後部(MAP)推定モデルを提案する。
論文 参考訳(メタデータ) (2022-02-12T15:37:13Z) - High-resolution Depth Maps Imaging via Attention-based Hierarchical
Multi-modal Fusion [84.24973877109181]
誘導DSRのための新しい注意に基づく階層型マルチモーダル融合ネットワークを提案する。
本手法は,再現精度,動作速度,メモリ効率の点で最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:28:33Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。