論文の概要: Look Where It Matters: Training-Free Ultra-HR Remote Sensing VQA via Adaptive Zoom Search
- arxiv url: http://arxiv.org/abs/2511.20460v2
- Date: Fri, 28 Nov 2025 13:03:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 15:47:02.746318
- Title: Look Where It Matters: Training-Free Ultra-HR Remote Sensing VQA via Adaptive Zoom Search
- Title(参考訳): トレーニング不要のUltra-HRリモートセンシングVQA : Adaptive Zoom Search
- Authors: Yunqi Zhou, Chengjie Jiang, Chun Yuan, Jing Li,
- Abstract要約: ZoomSearchはトレーニング不要のプラグイン&プレイパイプラインで、Ultra-HR Remote Sensing Visual Question Answering (RS-VQA)の 'How to answer' から 'How to answer' を分離する。
LLaVA-ovと統合されると、ZoomSearchは様々なタスクで最先端の精度を実現し、LLaVA-ovベースラインはLRS-VQAで26.3%、MME-RealWorld-RSで114.8%向上した。
- 参考スコア(独自算出の注目度): 44.758226499411904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With advances in satellite constellations, sensor technologies, and imaging pipelines, ultra-high-resolution (Ultra-HR) remote sensing imagery is becoming increasingly widespread. However, current remote sensing foundation models are ill-suited to such inputs: full-image encoding exhausts token and memory budgets, while resize-based preprocessing loses fine-grained and answer-critical details. In this context, guiding the model look where it matters before prediction becomes crucial. Therefore, we present ZoomSearch, a training-free, plug-and-play pipeline that decouples 'where to look' from 'how to answer' for Ultra-HR Remote Sensing Visual Question Answering (RS-VQA). ZoomSearch combines Adaptive Multi-Branch Zoom Search, which performs a hierarchical search over image patches to localize query-relevant regions, with Layout-Aware Patch Reassembly, which reorganizes the selected patches into a compact, layout-faithful canvas. We conduct comprehensive experiments on Ultra-HR RS-VQA benchmarks MME-RealWorld-RS and LRS-VQA, comparing against (i) strong general foundation models, (ii) remote sensing foundation models, (iii) Ultra-HR RS-VQA methods, and (iv) plug-and-play search-based VQA methods. When integrated with LLaVA-ov, ZoomSearch attains state-of-the-art accuracy across diverse tasks, improving the LLaVA-ov baseline by 26.3% on LRS-VQA and 114.8% on MME-RealWorld-RS. Meanwhile, it achieves much higher inference efficiency, outperforming prior search-based methods by 20%~44% in speed.
- Abstract(参考訳): 衛星コンステレーション、センサー技術、撮像パイプラインの進歩により、超高解像度(ウルトラHR)のリモートセンシング画像が急速に普及している。
しかし、現在のリモートセンシング基盤モデルは、トークンとメモリの予算をフルイメージで符号化するのに対して、リサイズベースの前処理はきめ細かな詳細と答えクリティカルな詳細を失うという、そのような入力に不適である。
この文脈では、予測が重要になる前にモデルを導くことは重要視される。
そこで我々は,Ultra-HR Remote Sensing Visual Question Answering (RS-VQA) の 'How to answer' から 'How to answer' を分離した,トレーニングフリーのプラグイン・アンド・プレイパイプラインであるZoomSearchを紹介した。
ZoomSearchは、画像パッチを階層的に検索してクエリ関連領域をローカライズするAdaptive Multi-Branch Zoom Searchと、選択したパッチをコンパクトでレイアウトに忠実なキャンバスに再構成するLayout-Aware Patch Reassemblyを組み合わせたものだ。
我々は、Ultra-HR RS-VQAベンチマーク MME-RealWorld-RS と LRS-VQA の総合的な実験を行い、比較した。
(i)強力な基礎モデル
二 リモートセンシング基礎モデル
3ウルトラHRRS-VQA法及び方法
(iv) プラグアンドプレイ検索に基づくVQA方式。
LLaVA-ovと統合されると、ZoomSearchは様々なタスクで最先端の精度を実現し、LLaVA-ovベースラインはLRS-VQAで26.3%、MME-RealWorld-RSで114.8%向上した。
一方、より高速な推論効率を実現し、従来の検索ベースの手法を20%から44%高速化した。
関連論文リスト
- ZoomEarth: Active Perception for Ultra-High-Resolution Geospatial Vision-Language Tasks [49.99788276124186]
既存の動的解像度とトークンプルーニング法は受動的知覚パラダイムによって制約される。
本稿では,UHR RS処理におけるアクティブな認識に適した大規模ベンチマークデータセット LRS-GRO を提案する。
ZoomEarthは,より詳細なガイダンスを提供する新しい地域誘導報酬を用いた適応的収穫・造粒フレームワークである。
論文 参考訳(メタデータ) (2025-11-15T15:47:46Z) - A Resource-Efficient Training Framework for Remote Sensing Text--Image Retrieval [5.831764081074079]
RSTIRのための計算とメモリ効率の検索フレームワークを提案する。
トレーニングメモリ使用量を削減するため,Focus-Adapterモジュールを提案する。
提案手法は, メモリ消費を49%削減し, トレーニング中のデータスループットを1.4倍に向上させる。
論文 参考訳(メタデータ) (2025-01-18T02:51:43Z) - Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。
より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。
我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文 参考訳(メタデータ) (2024-05-08T11:09:24Z) - RS-Mamba for Large Remote Sensing Image Dense Prediction [58.12667617617306]
本稿では,大規模なVHRリモートセンシング画像における高密度予測タスクに対するリモートセンシング・マンバ(RSM)を提案する。
RSMは、線形複雑度でリモートセンシング画像のグローバルなコンテキストを捉えるように設計されている。
我々のモデルは、大規模なリモートセンシング画像の変換器ベースモデルよりも効率と精度がよい。
論文 参考訳(メタデータ) (2024-04-03T12:06:01Z) - A Novel Multi-scale Attention Feature Extraction Block for Aerial Remote
Sensing Image Classification [9.388978548253755]
スキップ接続を伴う2段階のマルチスケール畳み込みに基づくマルチスケールアテンション特徴抽出ブロック(MSAFEB)を提案する。
2つのベンチマークVHR空中RS画像データセット(AIDとNWPU)に関する実験的研究により、提案手法は安定かつ一貫性のある性能(0.002$の最小標準偏差)と有能な総合分類性能(AID:95.85%、NWPU:94.09%)を達成することを示した。
論文 参考訳(メタデータ) (2023-08-27T11:49:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。