論文の概要: Geo3DVQA: Evaluating Vision-Language Models for 3D Geospatial Reasoning from Aerial Imagery
- arxiv url: http://arxiv.org/abs/2512.07276v1
- Date: Mon, 08 Dec 2025 08:16:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.779919
- Title: Geo3DVQA: Evaluating Vision-Language Models for 3D Geospatial Reasoning from Aerial Imagery
- Title(参考訳): Geo3DVQA:空中画像からの3次元空間推論のための視覚言語モデルの評価
- Authors: Mai Tsujimoto, Junjue Wang, Weihao Xuan, Naoto Yokoya,
- Abstract要約: Geo3DVQA(Geo3DVQA)は、高度対応3次元地理空間推論における視覚言語モデル(VLM)の評価ベンチマークである。
従来のセンサーベースのフレームワークとは異なり、Geo3DVQAは標高、スカイビュー要素、ランドカバーパターンを統合する現実的なシナリオを強調している。
- 参考スコア(独自算出の注目度): 18.7420518276348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Three-dimensional geospatial analysis is critical to applications in urban planning, climate adaptation, and environmental assessment. Current methodologies depend on costly, specialized sensors (e.g., LiDAR and multispectral), which restrict global accessibility. Existing sensor-based and rule-driven methods further struggle with tasks requiring the integration of multiple 3D cues, handling diverse queries, and providing interpretable reasoning. We hereby present Geo3DVQA, a comprehensive benchmark for evaluating vision-language models (VLMs) in height-aware, 3D geospatial reasoning using RGB-only remote sensing imagery. Unlike conventional sensor-based frameworks, Geo3DVQA emphasizes realistic scenarios that integrate elevation, sky view factors, and land cover patterns. The benchmark encompasses 110k curated question-answer pairs spanning 16 task categories across three complexity levels: single-feature inference, multi-feature reasoning, and application-level spatial analysis. The evaluation of ten state-of-the-art VLMs highlights the difficulty of RGB-to-3D reasoning. GPT-4o and Gemini-2.5-Flash achieved only 28.6% and 33.0% accuracy respectively, while domain-specific fine-tuning of Qwen2.5-VL-7B achieved 49.6% (+24.8 points). These results reveal both the limitations of current VLMs and the effectiveness of domain adaptation. Geo3DVQA introduces new challenge frontiers for scalable, accessible, and holistic 3D geospatial analysis. The dataset and code will be released upon publication at https://github.com/mm1129/Geo3DVQA.
- Abstract(参考訳): 3次元地理空間分析は、都市計画、気候適応、環境アセスメントの応用に不可欠である。
現在の手法は、グローバルアクセシビリティを制限する、高価な特殊なセンサー(例えば、LiDARやマルチスペクトル)に依存している。
既存のセンサベースおよびルール駆動の手法は、複数の3Dキューの統合、多様なクエリの処理、解釈可能な推論の提供を必要とするタスクにさらに苦労する。
本稿では,RGBのみのリモートセンシング画像を用いた3次元地理空間推論における視覚言語モデル(VLM)の総合的評価ベンチマークであるGeo3DVQAを提案する。
従来のセンサーベースのフレームワークとは異なり、Geo3DVQAは標高、スカイビュー要素、ランドカバーパターンを統合する現実的なシナリオを強調している。
このベンチマークは、単機能推論、多機能推論、アプリケーションレベルの空間分析という3つの複雑性レベルにまたがる16のタスクカテゴリにまたがる、110kのキュレートされた質問応答ペアを含んでいる。
10個の最先端VLMの評価は、RGB-to-3D推論の難しさを浮き彫りにしている。
GPT-4oとGemini-2.5-Flashはそれぞれ28.6%と33.0%の精度で達成し、Qwen2.5-VL-7Bのドメイン固有の微調整は49.6%(+24.8ポイント)に達した。
これらの結果は、現在のVLMの限界とドメイン適応の有効性の両方を明らかにしている。
Geo3DVQAは、スケーラブルでアクセスしやすく、総合的な3D地理空間解析のための新しい挑戦フロンティアを導入した。
データセットとコードはhttps://github.com/mm1129/Geo3DVQAで公開される。
関連論文リスト
- 3dSAGER: Geospatial Entity Resolution over 3D Objects (Technical Report) [7.378893412842889]
3dSAGERは3Dオブジェクト上の空間的エンティティ解決のためのエンドツーエンドパイプラインである。
本稿では,マッチングペアの複雑な幾何学的特徴をキャプチャする,空間参照非依存のデファクトチュール化機構を提案する。
また、訓練されたモデルを活用して、ハイリコール候補セットを効率的に生成する、軽量で解釈可能な新しいブロッキング手法であるBKAFIを提案する。
論文 参考訳(メタデータ) (2025-11-09T09:35:45Z) - Where on Earth? A Vision-Language Benchmark for Probing Model Geolocation Skills Across Scales [61.03549470159347]
視覚言語モデル (VLM) は急速に進歩しているが, オープンワールド環境における画像位置決め能力は, 網羅的に評価されていない。
我々は、視覚認識、ステップバイステップ推論、エビデンス利用を評価するVLM画像位置情報の総合ベンチマークであるEarthWhereを提示する。
論文 参考訳(メタデータ) (2025-10-13T01:12:21Z) - GeoProg3D: Compositional Visual Reasoning for City-Scale 3D Language Fields [25.969442927216893]
GeoProg3Dは、都市規模の高忠実度3Dシーンとの自然言語駆動インタラクションを可能にするビジュアルプログラミングフレームワークである。
本フレームワークでは,GV-APIを動的に組み合わせ,GCLFを動作させるための推論エンジンとして,大規模言語モデル(LLM)を採用している。
実験により、GeoProg3Dは既存の3D言語フィールドや視覚言語モデルよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2025-06-29T18:03:03Z) - EarthMapper: Visual Autoregressive Models for Controllable Bidirectional Satellite-Map Translation [50.433911327489554]
制御可能な衛星マップ翻訳のための新しいフレームワークであるEarthMapperを紹介する。
また,中国38都市を対象とした302,132組の衛星マップからなる大規模データセットであるCNSatMapをコントリビュートした。
CNSatMapとNew Yorkデータセットの実験は、EarthMapperの優れたパフォーマンスを実証している。
論文 参考訳(メタデータ) (2025-04-28T02:41:12Z) - Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework [59.42946541163632]
3つの重要なコンポーネントを持つ包括的位置決めフレームワークを導入する。
大規模データセットGeoComp、新しい推論手法GeoCoT、評価指標GeoEval。
また,GeoCoTは解釈可能性を高めつつ,位置情報の精度を最大25%向上させることを示した。
論文 参考訳(メタデータ) (2025-02-19T14:21:25Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。