Fugu-MT 論文翻訳(概要): PinpointQA: A Dataset and Benchmark for Small Object-Centric Spatial Understanding in Indoor Videos

論文の概要: PinpointQA: A Dataset and Benchmark for Small Object-Centric Spatial Understanding in Indoor Videos

arxiv url: http://arxiv.org/abs/2604.08991v1
Date: Fri, 10 Apr 2026 05:53:47 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-13 17:57:53.70925
Title: PinpointQA: A Dataset and Benchmark for Small Object-Centric Spatial Understanding in Indoor Videos
Title（参考訳）: PinpointQA: 屋内ビデオにおける小さな物体中心空間理解のためのデータセットとベンチマーク
Authors: Zhiyu Zhou, Peilin Liu, Ruoxuan Zhang, Luyang Zhang, Cheng Zhang, Hongxia Xie, Wen-Huang Cheng,
Abstract要約: PinpointQAは、屋内ビデオにおける小さなオブジェクト中心空間理解のための最初のデータセットとベンチマークである。 1024のシーンと10,094のQAペアからなる。実験では、プログレッシブチェーンに沿って一貫した能力ギャップが示され、SSPは特に困難である。
参考スコア（独自算出の注目度）: 23.951493516327016
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Small object-centric spatial understanding in indoor videos remains a significant challenge for multimodal large language models (MLLMs), despite its practical value for object search and assistive applications. Although existing benchmarks have advanced video spatial intelligence, embodied reasoning, and diagnostic perception, no existing benchmark directly evaluates whether a model can localize a target object in video and express its position with sufficient precision for downstream use. In this work, we introduce PinpointQA, the first dataset and benchmark for small object-centric spatial understanding in indoor videos. Built from ScanNet++ and ScanNet200, PinpointQA comprises 1,024 scenes and 10,094 QA pairs organized into four progressively challenging tasks: Target Presence Verification (TPV), Nearest Reference Identification (NRI), Fine-Grained Spatial Description (FSD), and Structured Spatial Prediction (SSP). The dataset is built from intermediate spatial representations, with QA pairs generated automatically and further refined through quality control. Experiments on representative MLLMs reveal a consistent capability gap along the progressive chain, with SSP remaining particularly difficult. Supervised fine-tuning on PinpointQA yields substantial gains, especially on the harder tasks, demonstrating that PinpointQA serves as both a diagnostic benchmark and an effective training dataset. The dataset and project page are available at https://rainchowz.github.io/PinpointQA.
Abstract（参考訳）: 屋内ビデオにおけるオブジェクト中心の空間的理解は、オブジェクト探索や補助的応用に実用的価値があるにもかかわらず、マルチモーダルな大規模言語モデル(MLLM)にとって重要な課題である。既存のベンチマークには、高度なビデオ空間知能、具体的推論、診断知覚があるが、既存のベンチマークでは、モデルがビデオ内の対象物をローカライズし、下流での使用に十分な精度でその位置を表現できるかどうかを直接評価していない。本研究では,屋内ビデオにおけるオブジェクト中心空間理解のための最初のデータセットとベンチマークであるPinpointQAを紹介する。 ScanNet++とScanNet200をベースとして、PinpointQAは1024のシーンと10,094のQAペアで構成される。データセットは中間空間表現から構築され、品質管理によってQAペアが自動的に生成され、さらに洗練される。代表的なMLLMの実験では、SSPは特に困難であり、プログレッシブチェーンに沿って一貫した能力ギャップが示される。 PinpointQAの微調整を監督することで、特に難しいタスクにおいて、PinpointQAが診断ベンチマークと効果的なトレーニングデータセットの両方として機能することを実証することができる。データセットとプロジェクトページはhttps://rainchowz.github.io/PinpointQA.orgで公開されている。

関連論文リスト

SPARROW: Learning Spatial Precision and Temporal Referential Consistency in Pixel-Grounded Video MLLMs [39.73103140338364]
SPARROW(SPARROW)は、2つのキーコンポーネントを通して空間的精度と時間的安定性を統一するビデオMLLMである。 SPARROWは、30,646のビデオと45,231のQ&Aペアからなる、キュレートされた参照ビデオデータセットによってサポートされている。 6つのベンチマークで一貫したゲインを提供し、RVOSでは+8.9 J&F、ビジュアルグラウンドでは+5 mIoU、GCGでは+5.4 CLAIRに改善された。
論文参考訳（メタデータ） (2026-03-12T18:59:57Z)
Reasoning with Pixel-level Precision: QVLM Architecture and SQuID Dataset for Quantitative Geospatial Analytics [0.2291770711277359]
現在のビジョンランゲージモデル(VLM)は、そのアーキテクチャが計測と測定に必要なピクセルレベルの情報を破壊するため、定量的空間的推論では失敗する。まず,2000の衛星画像に対する問合せ対のベンチマークであるSQuIDを紹介する。第2に,言語理解を視覚解析から切り離して画素精度を維持するコード生成アーキテクチャQVLMを提案する。
論文参考訳（メタデータ） (2026-01-19T21:14:34Z)
From Indoor to Open World: Revealing the Spatial Reasoning Gap in MLLMs [65.04549036809557]
我々は、ステレオカメラ、LiDAR、IMU/GPSセンサーで撮影された歩行者の視線映像から構築したベンチマークを紹介する。このデータセットは、計量的に正確な3D情報を提供し、空間的推論質問の自動生成を可能にする。評価の結果、構造化屋内ベンチマークで観測された性能向上は、オープンワールド環境では消滅することが明らかとなった。
論文参考訳（メタデータ） (2025-12-22T18:58:12Z)
OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding [50.72259772580637]
エージェントの観点から,オンライン時空間理解を評価するためのベンチマークOST-Benchを紹介する。効率的なデータ収集パイプライン上に構築されたOST-Benchは、ScanNet、Matterport3D、ARKitScenesから収集された1.4kのシーンと10kの質問応答ペアで構成されている。複雑な空間的推論要求と長期記憶検索要求の両方が、2つの別々の軸に沿ってモデル性能を著しく低下させることがわかった。
論文参考訳（メタデータ） (2025-07-10T17:56:07Z)
Box-QAymo: Box-Referring VQA Dataset for Autonomous Driving [27.39309272688527]
解釈可能なコミュニケーションは安全で信頼性の高い自動運転に不可欠である。現在の視覚言語モデル(VLM)は、しばしば理想化された仮定の下で動作し、現実世界のシナリオにおけるユーザの意図を捉えるのに苦労する。 Box-QAymoは、ユーザの指定したオブジェクトに対する空間的および時間的推論において、堅牢性と微妙なVLMを評価するために設計された、ボックス参照データセットとベンチマークである。
論文参考訳（メタデータ） (2025-07-01T07:40:16Z)
SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。既存のMLLMは3次元空間認識と理解能力を持っているか?
論文参考訳（メタデータ） (2025-05-22T17:59:03Z)
GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文参考訳（メタデータ） (2024-11-28T18:59:56Z)
Knowing Earlier what Right Means to You: A Comprehensive VQA Dataset for Grounding Relative Directions via Multi-Task Learning [16.538887534958555]
GRiD-A-3Dは,抽象オブジェクトに基づく新しい視覚的質問応答データセットである。我々のデータセットは、相対的な方向へのエンド・ツー・エンドのVQAモデルの機能を詳細に分析することを可能にする。幾つかのエポックにおいて、相対方向を判断するために必要なサブタスクが、相対方向を直感的に処理する順序で学習されることを実証する。
論文参考訳（メタデータ） (2022-07-06T12:31:49Z)
Dynamic Refinement Network for Oriented and Densely Packed Object Detection [75.29088991850958]
本稿では,機能選択モジュール (FSM) と動的改善ヘッド (DRH) の2つの新しいコンポーネントからなる動的精細化ネットワークを提案する。我々のFSMは、ニューロンがターゲットオブジェクトの形状や向きに応じて受容野を調整できるのに対して、DRHはオブジェクト認識の方法で動的に予測を洗練させる。我々は、DOTA、HRSC2016、SKU110K、および我々のSKU110K-Rデータセットを含むいくつかの公開ベンチマークで定量的評価を行う。
論文参考訳（メタデータ） (2020-05-20T11:35:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。