論文の概要: ZoomEarth: Active Perception for Ultra-High-Resolution Geospatial Vision-Language Tasks
- arxiv url: http://arxiv.org/abs/2511.12267v1
- Date: Sat, 15 Nov 2025 15:47:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.787654
- Title: ZoomEarth: Active Perception for Ultra-High-Resolution Geospatial Vision-Language Tasks
- Title(参考訳): ZoomEarth:超高分解能測地空間視覚の能動的知覚
- Authors: Ruixun Liu, Bowen Fu, Jiayi Song, Kaiyu Li, Wanchen Li, Lanxuan Xue, Hui Qiao, Weizhan Zhang, Deyu Meng, Xiangyong Cao,
- Abstract要約: 既存の動的解像度とトークンプルーニング法は受動的知覚パラダイムによって制約される。
本稿では,UHR RS処理におけるアクティブな認識に適した大規模ベンチマークデータセット LRS-GRO を提案する。
ZoomEarthは,より詳細なガイダンスを提供する新しい地域誘導報酬を用いた適応的収穫・造粒フレームワークである。
- 参考スコア(独自算出の注目度): 49.99788276124186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ultra-high-resolution (UHR) remote sensing (RS) images offer rich fine-grained information but also present challenges in effective processing. Existing dynamic resolution and token pruning methods are constrained by a passive perception paradigm, suffering from increased redundancy when obtaining finer visual inputs. In this work, we explore a new active perception paradigm that enables models to revisit information-rich regions. First, we present LRS-GRO, a large-scale benchmark dataset tailored for active perception in UHR RS processing, encompassing 17 question types across global, region, and object levels, annotated via a semi-automatic pipeline. Building on LRS-GRO, we propose ZoomEarth, an adaptive cropping-zooming framework with a novel Region-Guided reward that provides fine-grained guidance. Trained via supervised fine-tuning (SFT) and Group Relative Policy Optimization (GRPO), ZoomEarth achieves state-of-the-art performance on LRS-GRO and, in the zero-shot setting, on three public UHR remote sensing benchmarks. Furthermore, ZoomEarth can be seamlessly integrated with downstream models for tasks such as cloud removal, denoising, segmentation, and image editing through simple tool interfaces, demonstrating strong versatility and extensibility.
- Abstract(参考訳): 超高分解能(UHR)リモートセンシング(RS)画像は、豊富な微細な情報を提供するだけでなく、効率的な処理の課題も提示する。
既存の動的解像度とトークンプルーニング法は受動的知覚パラダイムによって制約され、より微細な視覚入力を得る際の冗長性の増大に悩まされる。
本研究では,モデルによる情報豊富な領域の再検討を可能にする,新しいアクティブな知覚パラダイムについて検討する。
まず,UHR RS処理におけるアクティブな認識に適した大規模ベンチマークデータセットであるLSS-GROについて述べる。
LRS-GRO 上に構築した ZoomEarth は,より詳細なガイダンスを提供する新しい領域誘導報酬を備えた適応的収穫・造粒フレームワークである。
教師付き微調整(SFT)とグループ相対ポリシー最適化(GRPO)によってトレーニングされたZoomEarthは、LSS-GROおよびゼロショット設定で、3つのUHRリモートセンシングベンチマーク上で最先端のパフォーマンスを達成する。
さらにZoomEarthは、単純なツールインターフェースを通じて、クラウド削除、デノナイズ、セグメンテーション、画像編集といったタスクの下流モデルとシームレスに統合することができ、強力な汎用性と拡張性を示している。
関連論文リスト
- Annotation-Free Open-Vocabulary Segmentation for Remote-Sensing Images [51.74614065919118]
本稿では,アノテーションのないRS画像のオープン語彙セグメンテーションのための最初のフレームワークであるSegEarth-OVを紹介する。
粗い特徴から高分解能空間の詳細を頑健に復元する普遍的なアップサンプラーであるSimFeatUpを提案する。
また、パッチ機能から固有のグローバルコンテキストを抽出するための、シンプルで効果的なグローバルバイアス緩和操作も提示する。
論文 参考訳(メタデータ) (2025-08-25T14:22:57Z) - GeoMag: A Vision-Language Model for Pixel-level Fine-Grained Remote Sensing Image Parsing [5.653111274028541]
リモートセンシングのための汎用大規模モデルフレームワークGeoMagを提案する。
GeoMagは、リモートセンシング画像解析を効果的に行うために、プロンプトセマンティクスに基づく注意範囲に焦点を当てる。
このアプローチは、重要なターゲット領域に対するモデルの認識を改善し、背景冗長性を抑え、高分解能RS画像の解釈の計算コストを削減する。
論文 参考訳(メタデータ) (2025-07-08T11:21:03Z) - SeG-SR: Integrating Semantic Knowledge into Remote Sensing Image Super-Resolution via Vision-Language Model [38.06930079816157]
高解像度(HR)リモートセンシング画像は、都市計画や環境モニタリングなど幅広い用途において重要な役割を担っている。
センサーやデータ転送リンクの制限により、実際に取得された画像は分解能の低下に悩まされることが多い。
RSISR(Remote Sensing Image Super-Resolution)は、ローレゾリューション(LR)入力からHRイメージを再構築することを目的としており、直接HR画像を取得するためのコスト効率の良い代替手段を提供する。
論文 参考訳(メタデータ) (2025-05-29T02:38:34Z) - GeoPixel: Pixel Grounding Large Multimodal Model in Remote Sensing [32.85223015863783]
GeoPixelは、ピクセルレベルのグラウンド化をサポートするエンドツーエンドの高解像度RS-LMMである。
任意のアスペクト比で最大4K HD解像度をサポートし、高精度RS画像解析に最適である。
GeoPixelはピクセルレベルの理解において優れた性能を示し、単一ターゲットとマルチターゲットのセグメンテーションタスクの両方において既存のLMMを上回っている。
論文 参考訳(メタデータ) (2025-01-23T18:59:30Z) - RS-Mamba for Large Remote Sensing Image Dense Prediction [58.12667617617306]
本稿では,大規模なVHRリモートセンシング画像における高密度予測タスクに対するリモートセンシング・マンバ(RSM)を提案する。
RSMは、線形複雑度でリモートセンシング画像のグローバルなコンテキストを捉えるように設計されている。
我々のモデルは、大規模なリモートセンシング画像の変換器ベースモデルよりも効率と精度がよい。
論文 参考訳(メタデータ) (2024-04-03T12:06:01Z) - Recursive Generalization Transformer for Image Super-Resolution [108.67898547357127]
本稿では,大域空間情報を捕捉し,高分解能画像に適した画像SRのための再帰一般化変換器(RGT)を提案する。
我々は,RG-SAと局所的自己意識を組み合わせることで,グローバルな文脈の活用を促進する。
我々のRGTは最近の最先端の手法よりも定量的に質的に優れている。
論文 参考訳(メタデータ) (2023-03-11T10:44:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。