論文の概要: GroundSet: A Cadastral-Grounded Dataset for Spatial Understanding with Vector Data
- arxiv url: http://arxiv.org/abs/2603.14609v1
- Date: Sun, 15 Mar 2026 21:11:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.917235
- Title: GroundSet: A Cadastral-Grounded Dataset for Spatial Understanding with Vector Data
- Title(参考訳): GroundSet:ベクトルデータを用いた空間的理解のためのカダストラー付きデータセット
- Authors: Roger Ferrod, Maël Lecene, Krishna Sapkota, George Leifman, Vered Silverman, Genady Beryozkin, Sylvain Lobry,
- Abstract要約: 検証可能なカダストラルベクトルデータに基づく大規模データセットを提案する。
7つの空間的推論タスクにまたがる包括的インストラクションチューニングベンチマークにより、このリソースを検証する。
現在のRS特化および商用モデル(例:Gemini)がゼロショット設定に苦戦している一方で、高忠実度監視がこのギャップを効果的に橋渡ししていることを示す。
- 参考スコア(独自算出の注目度): 2.2036462793273928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Precise spatial understanding in Earth Observation is essential for translating raw aerial imagery into actionable insights for critical applications like urban planning, environmental monitoring and disaster management. However, Multimodal Large Language Models exhibit critical deficiencies in fine-grained spatial understanding within Remote Sensing, primarily due to a reliance on limited or repurposed legacy datasets. To bridge this gap, we introduce a large-scale dataset grounded in verifiable cadastral vector data, comprising 3.8 million annotated objects across 510k high-resolution images with 135 granular semantic categories. We validate this resource through a comprehensive instruction-tuning benchmark spanning seven spatial reasoning tasks. Our evaluation establishes a robust baseline using a standard LLaVA architecture. We show that while current RS-specialized and commercial models (e.g., Gemini) struggle in zero-shot settings, high-fidelity supervision effectively bridges this gap, enabling standard architectures to master fine-grained spatial grounding without complex architectural modifications.
- Abstract(参考訳): 地球観測における正確な空間的理解は、都市計画、環境モニタリング、災害管理といった重要な応用のための実用的な知見に生の空中画像を翻訳するために不可欠である。
しかし、マルチモーダル大規模言語モデルは、リモートセンシング内でのきめ細かい空間的理解において重要な欠陥を示しており、これは主に、制限されたまたは再利用されたレガシーデータセットに依存しているためである。
このギャップを埋めるために、検証可能なカダストラベクトルデータに基づく大規模なデータセットを導入し、135の粒度のセマンティックカテゴリを持つ510kの高解像度画像に380万個の注釈付きオブジェクトを配置した。
7つの空間的推論タスクにまたがる包括的インストラクションチューニングベンチマークにより、このリソースを検証する。
評価では,標準LLaVAアーキテクチャを用いて,ロバストなベースラインを確立する。
現在のRS特化および商用モデル(例:Gemini)はゼロショット設定に苦戦しているが、高忠実度監視はこのギャップを効果的に橋渡しし、複雑なアーキテクチャ変更なしに標準的なアーキテクチャがきめ細かな空間的接地を習得できることを示した。
関連論文リスト
- SpaceSense-Bench: A Large-Scale Multi-Modal Benchmark for Spacecraft Perception and Pose Estimation [1.0262304700896199]
宇宙船認識のための大規模マルチモーダルベンチマークである textbfSpaceSense-Bench を提案する。
各フレームは、タイム同期1024$times$1024 RGBイメージ、ミリ精度深度マップ、256ビームのLiDAR点雲を提供する。
対象検出,2Dセマンティックセマンティックセグメンテーション,RGB-LiDAR融合による3Dポイントクラウドセグメンテーション,単眼深度推定,方向推定の5つのタスクをベンチマークし,2つの重要な発見点を同定した。
論文 参考訳(メタデータ) (2026-03-10T07:52:28Z) - From Indoor to Open World: Revealing the Spatial Reasoning Gap in MLLMs [65.04549036809557]
我々は、ステレオカメラ、LiDAR、IMU/GPSセンサーで撮影された歩行者の視線映像から構築したベンチマークを紹介する。
このデータセットは、計量的に正確な3D情報を提供し、空間的推論質問の自動生成を可能にする。
評価の結果、構造化屋内ベンチマークで観測された性能向上は、オープンワールド環境では消滅することが明らかとなった。
論文 参考訳(メタデータ) (2025-12-22T18:58:12Z) - Prompt-Guided Spatial Understanding with RGB-D Transformers for Fine-Grained Object Relation Reasoning [7.670666668651702]
我々は,Track 3 2025 AI City Challengeで導入された物理AI空間情報ウェアハウスデータセットに,専用の空間推論フレームワークを導入する。
提案手法は,入力プロンプトに直接マスク次元をバウンディングボックス座標の形で埋め込むことにより,空間的理解を高める。
私たちの包括的なパイプラインは73.0606の最終的なスコアを獲得し、全体の4位を公開リーダボードに位置づけています。
論文 参考訳(メタデータ) (2025-10-13T22:51:20Z) - R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation [74.41728218960465]
本稿では,実世界のデータを生成するために,ポイントクラウド観測-アクションペアを直接拡張するリアルタイム3Dデータ生成フレームワーク(R2RGen)を提案する。
R2RGenは、広範な実験におけるデータの効率を大幅に向上させ、モバイル操作におけるスケーリングと応用の強い可能性を示す。
論文 参考訳(メタデータ) (2025-10-09T17:55:44Z) - SpatialLadder: Progressive Training for Spatial Reasoning in Vision-Language Models [73.19077622773075]
本稿では,空間知能を段階的に構築するための包括的方法論を提案する。
オブジェクトローカライゼーション、単一画像、マルチビュー、ビデオ空間推論タスクにまたがる26,610のサンプルを含むマルチモーダルデータセットであるSpatialLadder-26kを紹介する。
本研究では,物体の局所化による空間知覚の確立,多次元空間的タスクによる空間理解の発達,および検証可能な報酬を用いた強化学習による複雑な推論の強化を目的とした3段階のプログレッシブ・トレーニング・フレームワークを設計する。
論文 参考訳(メタデータ) (2025-10-09T17:50:54Z) - AerialVG: A Challenging Benchmark for Aerial Visual Grounding by Exploring Positional Relations [51.44608822712786]
ビジュアルグラウンドイングは、自然言語記述に基づいたイメージ内のターゲットオブジェクトのローカライズを目的としている。
AerialVGは、例えば外見に基づく接地は、複数の視覚的に類似した物体を識別するには不十分である。
5Kの空中画像,50Kの注釈付き記述,103Kのオブジェクトからなる,最初のAerialVGデータセットを紹介した。
論文 参考訳(メタデータ) (2025-04-10T15:13:00Z) - GroundingSuite: Measuring Complex Multi-Granular Pixel Grounding [39.967352995143855]
GroundingSuiteは、ビジョンと言語モダリティのギャップを埋めることを目指している。
1)複数のVision-Language Model(VLM)エージェントを活用する自動データアノテーションフレームワーク,(2)9.56万の多様な参照表現とその対応するセグメンテーションを含む大規模トレーニングデータセット,(3)3800の画像からなる精巧にキュレートされた評価ベンチマーク。
GroundingSuiteトレーニングデータセットは、大幅なパフォーマンス向上を促進し、トレーニングされたモデルが最先端の結果を達成することを可能にする。
論文 参考訳(メタデータ) (2025-03-13T17:43:10Z) - EarthView: A Large Scale Remote Sensing Dataset for Self-Supervision [72.84868704100595]
本稿では,地球モニタリングタスクにおける深層学習アプリケーションを強化することを目的とした,リモートセンシングデータの自己監督を目的としたデータセットを提案する。
このデータセットは15テラピクセルのグローバルリモートセンシングデータにまたがっており、NEON、Sentinel、Satellogicによる1mの空間解像度データの新たなリリースなど、さまざまなソースの画像を組み合わせている。
このデータセットは、リモートセンシングデータの異なる課題に取り組むために開発されたMasked Autoencoderである。
論文 参考訳(メタデータ) (2025-01-14T13:42:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。