論文の概要: Reasoning with Pixel-level Precision: QVLM Architecture and SQuID Dataset for Quantitative Geospatial Analytics
- arxiv url: http://arxiv.org/abs/2601.13401v1
- Date: Mon, 19 Jan 2026 21:14:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.065509
- Title: Reasoning with Pixel-level Precision: QVLM Architecture and SQuID Dataset for Quantitative Geospatial Analytics
- Title(参考訳): 画素レベルの精度による推論:定量的地理空間分析のためのQVLMアーキテクチャとSQuIDデータセット
- Authors: Peter A. Massih, Eric Cosatto,
- Abstract要約: 現在のビジョンランゲージモデル(VLM)は、そのアーキテクチャが計測と測定に必要なピクセルレベルの情報を破壊するため、定量的空間的推論では失敗する。
まず,2000の衛星画像に対する問合せ対のベンチマークであるSQuIDを紹介する。
第2に,言語理解を視覚解析から切り離して画素精度を維持するコード生成アーキテクチャQVLMを提案する。
- 参考スコア(独自算出の注目度): 0.2291770711277359
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current Vision-Language Models (VLMs) fail at quantitative spatial reasoning because their architectures destroy pixel-level information required for counting and measurements. Vision encoders compress images through patch embeddings, reducing spatial indexing and losing the precise pixel-level tracking required for accurate counting. We present two contributions to address this fundamental limitation. First, we introduce SQuID (Satellite Quantitative Intelligence Dataset), a benchmark of 2,000 satellite image Question-Answer pairs with both numerical range and categorical answers, designed to evaluate quantitative spatial reasoning. The dataset spans three difficulty tiers with annotations automatically generated from human labels and their learned variability. Second, we propose QVLM (Quantitative Vision-Language Model), a code-generation architecture that maintains pixel precision by decoupling language understanding from visual analysis. Instead of encoding images into embeddings, QVLM generates executable code that first calls a segmentation model to obtain pixel-level masks, then operates directly on these masks, preserving spatial indexing throughout the reasoning process. Our experiments show that QVLM using GPT-5 as coder achieves 42.0% accuracy on SQuID compared to 28.1% for a VLM prompted with image-question pairs. Our work reveals that, for quantitative spatial reasoning, architectural decoupling enables better accuracy on quantitative tasks.
- Abstract(参考訳): 現在のビジョンランゲージモデル(VLM)は、そのアーキテクチャが計測と測定に必要なピクセルレベルの情報を破壊するため、定量的空間的推論では失敗する。
ビジョンエンコーダは、パッチの埋め込みを通じて画像を圧縮し、空間インデックスを減らし、正確なカウントに必要な正確なピクセルレベルのトラッキングを失う。
この基本的な制限に対処するための2つのコントリビューションを提示します。
まず,SQuID (Satellite Quantitative Intelligence Dataset) という,2000の衛星画像に対する質問応答対を数値的空間的推論とカテゴリー的回答の両方で比較し,定量的な空間的推論を評価する。
データセットは3つの難易度階層にまたがっており、人間のラベルから自動的にアノテーションが生成される。
第2に,言語理解を視覚解析から切り離して画素精度を維持するコード生成アーキテクチャであるQVLM(Quantitative Vision-Language Model)を提案する。
イメージを埋め込みに符号化する代わりに、QVLMはまずセグメンテーションモデルを呼び出す実行可能なコードを生成してピクセルレベルのマスクを取得し、それからこれらのマスクを直接操作し、推論プロセスを通して空間インデックスを保存する。
GPT-5をコーダとして用いたQVLMは,28.1%に比べてSQuIDの精度が42.0%向上した。
我々の研究は、定量的空間的推論のために、アーキテクチャデカップリングが量的タスクの精度を向上させることを明らかにしている。
関連論文リスト
- Video2Layout: Recall and Reconstruct Metric-Grounded Cognitive Map for Spatial Reasoning [19.549136366694572]
Video2は、ビデオからメートル法で配置された空間レイアウトを再構築するためのフレームワークである。
このフレームワークは、オブジェクト間の物理サイズとオブジェクトサイズを定量化するために、連続的なオブジェクト境界座標を使用する。
我々のモデルであるV2LO-7Bは、グリッドマップで訓練されたモデルよりも平均4.92%向上した。
論文 参考訳(メタデータ) (2025-11-20T08:57:14Z) - SD-VLM: Spatial Measuring and Understanding with Depth-Encoded Vision-Language Models [75.64836077468722]
視覚言語モデル(VLM)は2次元意味的視覚的理解において優れているが、3次元空間的関係について定量的に推論する能力はいまだ未解明のままである。
VLMの基本空間知覚能力を大幅に向上させる新しいフレームワークであるSD-VLMを提案する。
我々はSD-VLMを訓練した。これは強力な一般化VLMであり、より優れた空間的測定と理解能力を示す。
論文 参考訳(メタデータ) (2025-09-22T12:08:12Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - A Hitchhikers Guide to Fine-Grained Face Forgery Detection Using Common Sense Reasoning [9.786907179872815]
視覚と言語の可能性は、いまだに偽造検出に過小評価されている。
顔偽造検出を視覚質問応答(VQA)タスクに変換する方法論が必要である。
このギャップに対処するために,従来の二項決定パラダイムから分岐する多段階的アプローチを提案する。
論文 参考訳(メタデータ) (2024-10-01T08:16:40Z) - Pluralistic Salient Object Detection [108.74650817891984]
本稿では,与えられた入力画像に対して,複数の有意な有意な有意な有意な有意な有意な分割結果を生成することを目的とした新しい課題であるPSOD(multiistic Salient Object Detection)を紹介する。
新たに設計された評価指標とともに,2つのSODデータセット "DUTS-MM" と "DUS-MQ" を提案する。
論文 参考訳(メタデータ) (2024-09-04T01:38:37Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - SpatialBot: Precise Spatial Understanding with Vision Language Models [12.67089704185187]
視覚言語モデル (VLM) は2次元画像理解において優れた性能を発揮している。
彼らはまだ、Embodied AIの基盤である空間的理解に苦戦している。
本稿では,RGB画像と深度画像の両方をフィードすることで,空間的理解を向上させるためのSpatialBotを提案する。
論文 参考訳(メタデータ) (2024-06-19T15:41:30Z) - SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning
Capabilities [59.39858959066982]
空間的関係についての理解と推論は、視覚質問応答(VQA)とロボット工学の基本的な能力である。
我々は,1000万枚の実画像に対して,最大20億個のVQAサンプルをスケール可能な3次元空間VQAデータ自動生成フレームワークを開発した。
このようなデータに基づいてVLMを訓練することにより、定性的空間的VQAと定量的空間的VQAの両方において、その能力を大幅に向上する。
論文 参考訳(メタデータ) (2024-01-22T18:01:01Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。