論文の概要: GeoEyes: On-Demand Visual Focusing for Evidence-Grounded Understanding of Ultra-High-Resolution Remote Sensing Imagery
- arxiv url: http://arxiv.org/abs/2602.14201v1
- Date: Sun, 15 Feb 2026 15:50:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:49.734939
- Title: GeoEyes: On-Demand Visual Focusing for Evidence-Grounded Understanding of Ultra-High-Resolution Remote Sensing Imagery
- Title(参考訳): GeoEyes:超高解像度リモートセンシング画像の可視化のためのオンデマンドビジュアルフォーカス
- Authors: Fengxiang Wang, Mingshuo Chen, Yueying Li, Yajie Yang, Yifan Zhang, Long Lan, Xue Yang, Hongda Sun, Yulin Wang, Di Wang, Jun Song, Jing Zhang, Bo Du,
- Abstract要約: シンキング・ウィズ・イメージ」パラダイムは、マルチモーダルな大規模言語モデル(MLLM)がズームインツールを使って視覚的なシーンを積極的に探索することを可能にする。
これは超高分解能(UHR)リモートセンシングVQAにおいて必須であり、タスク関連キューは疎小である。
筆者らは,(1)冷間開始型SFTデータセット, UHR-CoZ(UHR-CoZ)を多種多様なズームレジームをカバーするトレーニングフレームワークであるGeoEyes,(2)エージェント強化学習手法であるAdaZoom-GRPOを提案する。
- 参考スコア(独自算出の注目度): 69.05066425853326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The "thinking-with-images" paradigm enables multimodal large language models (MLLMs) to actively explore visual scenes via zoom-in tools. This is essential for ultra-high-resolution (UHR) remote sensing VQA, where task-relevant cues are sparse and tiny. However, we observe a consistent failure mode in existing zoom-enabled MLLMs: Tool Usage Homogenization, where tool calls collapse into task-agnostic patterns, limiting effective evidence acquisition. To address this, we propose GeoEyes, a staged training framework consisting of (1) a cold-start SFT dataset, UHR Chain-of-Zoom (UHR-CoZ), which covers diverse zooming regimes, and (2) an agentic reinforcement learning method, AdaZoom-GRPO, that explicitly rewards evidence gain and answer improvement during zoom interactions. The resulting model learns on-demand zooming with proper stopping behavior and achieves substantial improvements on UHR remote sensing benchmarks, with 54.23% accuracy on XLRS-Bench.
- Abstract(参考訳): シンキング・ウィズ・イメージ」パラダイムは、マルチモーダルな大規模言語モデル(MLLM)がズームインツールを通じて視覚的なシーンを積極的に探索することを可能にする。
これは超高分解能(UHR)リモートセンシングVQAにおいて必須であり、タスク関連キューは疎小である。
しかし、既存のズーム対応MLLMでは、一貫した障害モードが観察されている。
そこで本研究では,(1)冷間開始型SFTデータセット, UHR-CoZ(UHR-CoZ)を多種多様なズーム方式で構成し,(2)エージェント強化学習手法であるAdaZoom-GRPO(AdaZoom-GRPO)を提案する。
その結果得られたモデルは、適切な停止動作でオンデマンドズームを学習し、XLRS-Benchで54.23%の精度でUHRリモートセンシングベンチマークを大幅に改善した。
関連論文リスト
- ForgeryVCR: Visual-Centric Reasoning via Efficient Forensic Tools in MLLMs for Image Forgery Detection and Localization [62.03035862528452]
ForgeryVCRは、視覚中心推論(Visual-Centric Reasoning)を通じて、知覚できないトレースを明示的な視覚中間体に物質化するフレームワークである。
ForgeryVCRは、検出タスクとローカライゼーションタスクの両方において、最先端(SOTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-15T11:14:47Z) - Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception [43.08943307183693]
Region-to-Image Distillationは、推論時ツールからトレーニング時プリミティブへのズームを変換する。
我々は,複数のきめ細かい知覚ベンチマークにおいて,モデルが先行する性能を実現することを示す。
論文 参考訳(メタデータ) (2026-02-12T12:00:35Z) - ZoomEarth: Active Perception for Ultra-High-Resolution Geospatial Vision-Language Tasks [49.99788276124186]
既存の動的解像度とトークンプルーニング法は受動的知覚パラダイムによって制約される。
本稿では,UHR RS処理におけるアクティブな認識に適した大規模ベンチマークデータセット LRS-GRO を提案する。
ZoomEarthは,より詳細なガイダンスを提供する新しい地域誘導報酬を用いた適応的収穫・造粒フレームワークである。
論文 参考訳(メタデータ) (2025-11-15T15:47:46Z) - MGDFIS: Multi-scale Global-detail Feature Integration Strategy for Small Object Detection [12.838872442435527]
UAV画像の小さな物体検出は、探索・救助、交通監視、環境監視といった用途に不可欠である。
既存のマルチスケール融合法は、計算負荷を増し、詳細をぼかすのに役立つ。
本稿では,グローバルコンテキストと局所的な詳細を密結合して検出性能を向上させる統合融合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-15T02:54:25Z) - RS-Mamba for Large Remote Sensing Image Dense Prediction [58.12667617617306]
本稿では,大規模なVHRリモートセンシング画像における高密度予測タスクに対するリモートセンシング・マンバ(RSM)を提案する。
RSMは、線形複雑度でリモートセンシング画像のグローバルなコンテキストを捉えるように設計されている。
我々のモデルは、大規模なリモートセンシング画像の変換器ベースモデルよりも効率と精度がよい。
論文 参考訳(メタデータ) (2024-04-03T12:06:01Z) - AdaZoom: Adaptive Zoom Network for Multi-Scale Object Detection in Large
Scenes [57.969186815591186]
大規模なシーンの検出は、小さなオブジェクトと極端なスケールの変動のために難しい問題である。
本稿では,物体検出のための焦点領域を適応的に拡大するために,フレキシブルな形状と焦点長を有する選択的拡大器として,新しい適応型Zoom(AdaZoom)ネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-19T03:30:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。