論文の概要: GeoHeight-Bench: Towards Height-Aware Multimodal Reasoning in Remote Sensing
- arxiv url: http://arxiv.org/abs/2603.25565v1
- Date: Thu, 26 Mar 2026 15:38:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.363071
- Title: GeoHeight-Bench: Towards Height-Aware Multimodal Reasoning in Remote Sensing
- Title(参考訳): GeoHeight-Bench:リモートセンシングにおける高高度マルチモーダル推論を目指して
- Authors: Xuran Hu, Zhitong Xiong, Zhongcheng Hong, Yifang Ban, Xiaoxiang Zhu, Wufan Zhao,
- Abstract要約: 高度認識型リモートセンシング理解のための総合評価フレームワークを提案する。
我々は、系統的なプロンプトエンジニアリングとメタデータ抽出を利用したスケーラブルなVLM駆動データ生成パイプラインを開発した。
高度認識の必要性を検証するため,最初の高度認識型リモートセンシングLMMベースラインであるGeoHeightChatを提案する。
- 参考スコア(独自算出の注目度): 15.118294966433401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current Large Multimodal Models (LMMs) in Earth Observation typically neglect the critical "vertical" dimension, limiting their reasoning capabilities in complex remote sensing geometries and disaster scenarios where physical spatial structures often outweigh planar visual textures. To bridge this gap, we introduce a comprehensive evaluation framework dedicated to height-aware remote sensing understanding. First, to overcome the severe scarcity of annotated data, we develop a scalable, VLM-driven data generation pipeline utilizing systematic prompt engineering and metadata extraction. This pipeline constructs two complementary benchmarks: GeoHeight-Bench for relative height analysis, and a more challenging GeoHeight-Bench+ for holistic, terrain-aware reasoning. Furthermore, to validate the necessity of height perception, we propose GeoHeightChat, the first height-aware remote sensing LMM baseline. Serving as a strong proof of concept, our baseline demonstrates that synergizing visual semantics with implicitly injected height geometric features effectively mitigates the "vertical blind spot", successfully unlocking a new paradigm of interactive height reasoning in existing optical models.
- Abstract(参考訳): 現在の地球観測におけるLMM(Large Multimodal Model)は、一般に重要な「垂直」次元を無視し、複雑なリモートセンシング測地や、物理的空間構造がしばしば平面的な視覚的テクスチャを上回るような災害シナリオにおける推論能力を制限している。
このギャップを埋めるために,高度認識型リモートセンシング理解のための総合評価フレームワークを導入する。
まず、アノテートされたデータの深刻な不足を克服するために、系統的なプロンプトエンジニアリングとメタデータ抽出を利用したスケーラブルなVLM駆動データ生成パイプラインを開発する。
このパイプラインは、相対的な高さ解析のためのGeoHeight-Benchと、全体論的かつ地形を考慮した推論のためのGeoHeight-Bench+という2つの補完的なベンチマークを構築している。
さらに,高度認識の必要性を検証するために,最初の高度認識型リモートセンシングLMMベースラインであるGeoHeightChatを提案する。
概念の強い証明として、我々のベースラインは、暗黙的に注入された高さ幾何学的特徴による視覚的意味論の相乗化が「垂直盲点」を効果的に緩和し、既存の光学モデルにインタラクティブな高さ推論の新しいパラダイムを解き放つことを実証している。
関連論文リスト
- GeoSense: Internalizing Geometric Necessity Perception for Multimodal Reasoning [51.63457948949102]
マルチモーダル大規模言語モデル(MLLM)の限られた空間的理解を克服する枠組みを開発する。
この枠組みは,2次元の手がかりが不十分と判断された場合の推論において,幾何学的特徴を自律的に関与させることにより,知覚的不整合を意識したモデルを実現する。
論文 参考訳(メタデータ) (2026-03-11T03:32:12Z) - Thinking with Geometry: Active Geometry Integration for Spatial Reasoning [68.59084007360615]
我々は,能動的知覚にパラダイム・パッシブ・フュージョンをシフトさせるフレームワークであるGeoThinkerを提案する。
特徴混合の代わりに、GeoThinkerはモデルが内部の推論要求に応じて条件付けられた幾何学的証拠を選択的に検索することを可能にする。
その結果,次世代の空間知能には,空間構造を積極的に統合する能力が不可欠であることが示唆された。
論文 参考訳(メタデータ) (2026-02-05T18:59:32Z) - Understanding Depth and Height Perception in Large Visual-Language Models [21.209275651704758]
視覚言語モデル(VLM)の幾何学的理解を評価することに注力する。
形状や大きさといった基本的な幾何学的性質の知覚には優れていますが、深さや高さの知覚には一貫して苦労しています。
本研究の目的は, 幾何学的理解を深めた VLM の開発方法を明らかにすることである。
論文 参考訳(メタデータ) (2024-08-21T16:16:18Z) - GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - HeightFormer: A Multilevel Interaction and Image-adaptive
Classification-regression Network for Monocular Height Estimation with Aerial
Images [10.716933766055755]
本稿では,リモートセンシングにおける単分子高さ推定のための総合解を提案する。
マルチレベルインタラクションバックボーン(MIB)と画像適応型分類-回帰ハイトジェネレータ(ICG)を備えている。
ICGは各画像の高さ分割を動的に生成し、従来の回帰タスクを再設定する。
論文 参考訳(メタデータ) (2023-10-12T02:49:00Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Disentangled Latent Transformer for Interpretable Monocular Height
Estimation [15.102260054654923]
深層ニューラルネットワークが単眼画像から身長を予測する方法について検討する。
私たちの研究は、MHEモデルの理解と設計の両方に新しい洞察を与えています。
論文 参考訳(メタデータ) (2022-01-17T11:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。