論文の概要: VertiCue-Bench: Diagnosing Whether MLLMs Use Height Cues to Resolve 2D Ambiguity in Remote Sensing Natural Scenes
- arxiv url: http://arxiv.org/abs/2605.25784v1
- Date: Mon, 25 May 2026 12:30:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.039729
- Title: VertiCue-Bench: Diagnosing Whether MLLMs Use Height Cues to Resolve 2D Ambiguity in Remote Sensing Natural Scenes
- Title(参考訳): VertiCue-Bench: MLLMがリモートセンシング自然シーンで2次元曖昧性を解決するためにハイトクイズを使用するかどうかを診断する
- Authors: Jing Huang, Duanchu Wang, Junjie Yang, Zihang Cheng, Cheng Li, Lin Cui, Zhouyi Wu, Di Wang,
- Abstract要約: VertiCue-BenchはCHMによる地理空間推論のための最初の診断ベンチマークである。
遠隔センシング型MLLMを14種評価した。
全体的には、VertiCue-Benchは自然界の理解において重要な幾何学と意味論のギャップを露呈している。
- 参考スコア(独自算出の注目度): 17.920935934613368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have recently shown promising progress in geospatial reasoning. However, existing remote sensing benchmarks remain largely 2D-centric, evaluating models primarily on optical appearance. In natural environments, this paradigm breaks down due to severe spectral confusion, where ecologically distinct regions share similar textures but differ fundamentally in vertical structure. In such cases, explicit 3D structural data, such as Canopy Height Models (CHMs), become essential geometric evidence for semantic disambiguation. Yet, it remains unclear whether current MLLMs can genuinely leverage vertical cues to resolve appearance-level ambiguity. To address this gap, we introduce VertiCue-Bench, the first diagnostic benchmark for CHM-grounded geospatial reasoning. VertiCue-Bench comprises 1,534 carefully curated instances across 17 tasks, explicitly disentangling low-level height perception from ambiguity-aware semantic reasoning. Evaluations on 14 state-of-the-art general and remote-sensing-specialized MLLMs, combined with counterfactual modality testing, reveal a striking perception-reasoning dissociation. While models exhibit emerging competence in reading raw CHM height cues, they largely fail to translate geometric perception into reliable semantic reasoning, often underperforming RGB-only baselines when joint constraints are required. Overall, VertiCue-Bench exposes a critical geometry-to-semantics gap in natural scene understanding, offering actionable insights for advancing geospatial MLLMs.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)は近年,地理空間的推論の進歩を示す。
しかし、既存のリモートセンシングベンチマークは主に2D中心であり、主に光学的外観のモデルを評価する。
自然環境において、このパラダイムは、生態学的に異なる地域が類似したテクスチャを共有するが、基本的に垂直構造で異なる、激しいスペクトルの混乱によって崩壊する。
このような場合、Canopy Height Models (CHMs) のような明示的な3次元構造データは、意味的曖昧さの基本的な幾何学的証拠となる。
しかし、現在のMLLMが真に垂直な手がかりを利用して外観レベルの曖昧さを解消できるかどうかは不明だ。
このギャップに対処するために,CHM地上地空間推論のための最初の診断ベンチマークであるVertiCue-Benchを紹介する。
VertiCue-Benchは17のタスクにまたがる1,534の注意深くキュレートされたインスタンスで構成されており、あいまいさを認識したセマンティック推論から低レベルの高さの知覚を明示的に遠ざけている。
14種類の総合的およびリモートセンシング特化MLLMの評価と, 対実的モダリティ検査を併用すると, 顕著な知覚関連解離がみられた。
モデルは生のCHM高さの手がかりを読む能力が増す一方で、幾何学的知覚を信頼性のある意味的推論に変換することに失敗し、しばしば関節の制約が要求されるときにRGBのみのベースラインを過小評価する。
全体として、VertiCue-Benchは自然界の理解において重要な幾何学と意味論のギャップを露呈し、地理空間MLLMを前進させるための実用的な洞察を提供する。
関連論文リスト
- Beyond the Cartesian Illusion: Testing Two-Stage Multi-Modal Theory of Mind under Perceptual Bottlenecks [16.03812136589077]
アンカー型空間分解鎖(CoT)について紹介する。
CoTはMLLMを「幾何学的から意味論的」な投影を通して誘導し、まずはBの局所座標系を確立し、次にAがBの視覚フラストラムに該当するかどうかに基づいて、動的に視覚的および聴覚的モダリティを重み付けする。
論文 参考訳(メタデータ) (2026-05-18T10:32:56Z) - SpaMEM: Benchmarking Dynamic Spatial Reasoning via Perception-Memory Integration in Embodied Environments [19.997461654311994]
本稿では,空間的信念進化の力学を分離した大規模診断ベンチマークであるSpaMEMを紹介する。
SpaMEMは,4つのモードにわたる10,601,392の高忠実度画像を備えた,物理的に接地されたデータセット上に構築されている。
我々は,空間推論を3段階の階層として15の診断タスクで定式化する。
論文 参考訳(メタデータ) (2026-04-24T10:06:41Z) - TangramPuzzle: Evaluating Multimodal Large Language Models with Compositional Spatial Reasoning [104.66714520975837]
古典的タングラムゲームのレンズを通して構成空間推論を評価するために,幾何グラウンドのベンチマークを導入する。
本稿では,タングラム集合を正確に機械で検証可能な座標仕様でグルーピングする記号幾何学的枠組みであるタングラム構成式(TCE)を提案する。
MLLMは、幾何学的制約を無視しながら、ターゲットのシルエットとのマッチングを優先する傾向がある。
論文 参考訳(メタデータ) (2026-01-23T07:35:05Z) - MS-ISSM: Objective Quality Assessment of Point Clouds Using Multi-scale Implicit Structural Similarity [65.85858856481131]
点雲の非構造的で不規則な性質は、客観的品質評価(PCQA)に重大な課題をもたらす
マルチスケールインシシシット構造類似度測定(MS-ISSM)を提案する。
論文 参考訳(メタデータ) (2026-01-03T14:58:52Z) - From Indoor to Open World: Revealing the Spatial Reasoning Gap in MLLMs [65.04549036809557]
我々は、ステレオカメラ、LiDAR、IMU/GPSセンサーで撮影された歩行者の視線映像から構築したベンチマークを紹介する。
このデータセットは、計量的に正確な3D情報を提供し、空間的推論質問の自動生成を可能にする。
評価の結果、構造化屋内ベンチマークで観測された性能向上は、オープンワールド環境では消滅することが明らかとなった。
論文 参考訳(メタデータ) (2025-12-22T18:58:12Z) - LTD-Bench: Evaluating Large Language Models by Letting Them Draw [57.237152905238084]
LTD-Benchは、大規模言語モデル(LLM)のブレークスルーベンチマークである。
LLMの評価を抽象的なスコアから直接観察可能な視覚出力に変換する。
LTD-Benchの視覚出力は強力な診断分析を可能にし、モデル類似性を調べるための潜在的アプローチを提供する。
論文 参考訳(メタデータ) (2025-11-04T08:11:23Z) - Curved Inference: Concern-Sensitive Geometry in Large Language Model Residual Streams [0.0]
本稿では,大言語モデルの残差ストリーム軌跡が意味的関心事の変化に応じてどのように曲げられるかを追跡する幾何学的解釈可能性フレームワークを提案する。
Gemma3-1bとLLaMA3.2-3bを5つのネイティブ空間メトリクスを用いて解析し、曲率(kappa_i)とサリエンス(S(t))に着目した。
いずれのモデルにおいても,アクティベーショントラジェクトリが確実に変更されることが示唆された。
論文 参考訳(メタデータ) (2025-07-08T23:05:00Z) - Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding [58.38294408121273]
CUA-O3Dと呼ばれるオープン語彙3次元シーン理解のためのクロスモーダル・不確実性認識アグリゲーションを提案する。
提案手法は,(1)空間認識型視覚基盤モデルの幾何学的知識とともに,VLMのセマンティックな先入観を取り入れること,(2)モデル固有の不確かさを捉えるために,新しい決定論的不確実性推定を用いること,の2つの課題に対処する。
論文 参考訳(メタデータ) (2025-03-20T20:58:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。