論文の概要: UHR-Micro: Diagnosing and Mitigating the Resolution Illusion in Earth Observation VLMs
- arxiv url: http://arxiv.org/abs/2605.12237v1
- Date: Tue, 12 May 2026 15:07:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.950578
- Title: UHR-Micro: Diagnosing and Mitigating the Resolution Illusion in Earth Observation VLMs
- Title(参考訳): UHR-Micro:地球観測VLMにおける分解能イリュージョンの診断と緩和
- Authors: Shuo Ni, Tong Wang, Jing Zhang, He Chen, Haonan Guo, Ning Zhang, Bo Du,
- Abstract要約: VLM(Vision-Language Models)は、超高解像度(UHR)地球観測画像で動作する。
これらのモデルは、大規模なシーンコンテキストとマイクロスケールターゲットの間の深刻なスケールミスマッチに対して脆弱である。
11,253の命令を1,212のUHR画像にグラウンドしたベンチマークであるUHR-Microで、この課題をベンチマークする。
- 参考スコア(独自算出の注目度): 40.3198846405438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) increasingly operate on ultra-high-resolution (UHR) Earth observation imagery, yet they remain vulnerable to a severe scale mismatch between large-scale scene context and micro-scale targets. We refer to this empirical gap as a "resolution illusion": higher input resolution provides the appearance of richer visual detail, but does not necessarily yield reliable perception of spatially small, task-relevant evidence. To benchmark this challenge, we introduce UHR-Micro, a benchmark comprising 11,253 instructions grounded in 1,212 UHR images, designed to evaluate VLMs at the spatial limits of native Earth observation imagery. UHR-Micro spans diverse micro-target scales, context requirements, task families, and visual conditions, and provides diagnostic annotations that support controlled evaluation and fine-grained error attribution. Experiments with representative high-resolution VLMs show substantial failures in spatial grounding and evidence parsing, despite access to high-resolution inputs. Further analysis suggests that these failures are not fully resolved by increasing model capacity, but are closely tied to insufficient guidance in locating and using task-relevant micro-evidence. Motivated by this finding, we propose Micro-evidence Active Perception (MAP), a reference agent that decomposes queries into evidence-seeking steps, actively inspects candidate regions, and grounds its answers in localized observations. MAP-Agent improves micro-level perception by making high-resolution reasoning evidence-centered rather than image-centered. Together, UHR-Micro and MAP-Agent provide a diagnostic platform for evaluating, understanding, and advancing high-resolution reasoning in Earth observation VLMs. Datasets and source code were released at https://github.com/MiliLab/UHR-Micro.
- Abstract(参考訳): VLM(Vision-Language Models)は、超高解像度(UHR)地球観測画像でますます運用されるが、大規模なシーンコンテキストとマイクロスケールターゲットとの深刻なミスマッチに弱いままである。
高い入力分解能は、よりリッチな視覚的詳細の外観を提供するが、必ずしも空間的に小さく、タスク関連のある証拠の信頼できる認識をもたらすとは限らない。
この課題を評価するために、1212UHR画像に接地した11,253の命令からなるUHR-Microをネイティブ地球観測画像の空間的限界でVLMを評価するために導入した。
UHR-Microは、様々なマイクロターゲットスケール、コンテキスト要求、タスクファミリ、視覚条件にまたがり、制御された評価ときめ細かいエラー属性をサポートする診断アノテーションを提供する。
代表的な高分解能VLMを用いた実験は、高分解能入力へのアクセスにもかかわらず、空間的接地やエビデンス解析においてかなりの失敗を示した。
さらに分析したところ、これらの失敗はモデル能力の増大によって完全に解決されるのではなく、タスク関連マイクロエビデンス(英語版)の発見と利用において不十分なガイダンスと密接に関連していることが示唆された。
この発見を動機として,クエリをエビデンス検索ステップに分解し,候補領域を積極的に検査し,その回答を局所的に観察する参照エージェントであるmicro-evidence Active Perception (MAP)を提案する。
MAP-Agentは画像中心ではなく、高解像度の推論エビデンスを中心としたマイクロレベルの知覚を改善する。
UHR-MicroとMAP-Agentは共に、地球観測VLMにおける高分解能推論の評価、理解、進歩のための診断プラットフォームを提供する。
データセットとソースコードはhttps://github.com/MiliLab/UHR-Micro.comでリリースされた。
関連論文リスト
- Micro-Defects Expose Macro-Fakes: Detecting AI-Generated Images via Local Distributional Shifts [48.75898711300078]
生成モデルは、非常に現実的なように見えるイメージを生成することができ、実際の画像とAI生成イメージを区別する上での課題を提起する。
局所分布認識検出フレームワークであるマクロフェイク(MDMF)のマイクロ欠陥をマクロレベルの分布不規則性に増幅する。
提案手法は, 局所的な法医学的信号が生成画像に存在する場合, パッチワイド・モデリングにより, 明らかな相違が生じることを示す。
論文 参考訳(メタデータ) (2026-05-10T03:44:09Z) - ESPIRE: A Diagnostic Benchmark for Embodied Spatial Reasoning of Vision-Language Models [37.686748605290795]
ESPIREは空間推論のための診断ベンチマークである。
物理的に視覚言語モデルに基づいて、空間推論中心のロボットタスクでそれらを評価する。
我々は各タスクをローカライズと実行に分解し、両方を生成問題として扱う。
論文 参考訳(メタデータ) (2026-03-13T14:43:00Z) - Rethinking Evaluation of Infrared Small Target Detection [105.59753496831739]
本稿では,画素レベルと目標レベルのパフォーマンスを取り入れたハイブリッドレベルのメトリクスを導入し,システム的エラー解析手法を提案し,クロスデータセット評価の重要性を強調した。
標準化されたベンチマークを容易にするオープンソースツールキットがリリースされた。
論文 参考訳(メタデータ) (2025-09-21T02:45:07Z) - Beyond Semantics: Rediscovering Spatial Awareness in Vision-Language Models [13.768090541138571]
視覚言語モデル(VLM)はオブジェクトの識別と記述に優れるが、しばしば空間的推論では失敗する。
視覚トークンの埋め込みは、テキストトークンよりもはるかに大きな規範を持っている。
視覚トークンとシステムが注目を惹きつけることを明らかにするツール。
論文 参考訳(メタデータ) (2025-03-21T17:51:14Z) - SegSub: Evaluating Robustness to Knowledge Conflicts and Hallucinations in Vision-Language Models [6.52323086990482]
視覚言語モデル(VLM)は、高度なマルチモーダル推論を実証するが、知識の衝突に直面した場合には幻覚を起こす傾向がある。
本研究は,VLMレジリエンスを知識衝突に対して調査するために,目標画像摂動を適用するフレームワークであるsegsubを紹介する。
論文 参考訳(メタデータ) (2025-02-19T00:26:38Z) - Ensemble Learning for Microbubble Localization in Super-Resolution Ultrasound [1.912429179274357]
超解像超音波(SR-US)は、微小血管と血流を高空間分解能で捉えるための強力なイメージング技術である。
本稿では,マイクロバブル(MB)のローカライゼーションを高めるためのアンサンブル学習手法の可能性について検討する。
論文 参考訳(メタデータ) (2024-11-11T21:26:36Z) - Improving Vision Anomaly Detection with the Guidance of Language
Modality [64.53005837237754]
本稿では,マルチモーダルの観点から視覚モダリティの課題に取り組む。
本稿では,冗長な情報問題とスパース空間問題に対処するために,クロスモーダルガイダンス(CMG)を提案する。
視覚異常検出のためのよりコンパクトな潜在空間を学習するために、CMLEは言語モダリティから相関構造行列を学習する。
論文 参考訳(メタデータ) (2023-10-04T13:44:56Z) - Video-based Facial Micro-Expression Analysis: A Survey of Datasets,
Features and Algorithms [52.58031087639394]
マイクロ表現は不随意かつ過渡的な表情である。
嘘検出や犯罪検出など、幅広い応用において重要な情報を提供することができる。
マイクロ表現は過渡的で低強度であるため、検出と認識は困難であり、専門家の経験に大きく依存する。
論文 参考訳(メタデータ) (2022-01-30T05:14:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。