論文の概要: Prompt-Guided Spatial Understanding with RGB-D Transformers for Fine-Grained Object Relation Reasoning
- arxiv url: http://arxiv.org/abs/2510.11996v1
- Date: Mon, 13 Oct 2025 22:51:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.110797
- Title: Prompt-Guided Spatial Understanding with RGB-D Transformers for Fine-Grained Object Relation Reasoning
- Title(参考訳): 微細物体関係推論のためのRGB-D変換器を用いたPrompt-Guided空間理解
- Authors: Tanner Muturi, Blessing Agyei Kyem, Joshua Kofi Asamoah, Neema Jakisa Owor, Richard Dyzinela, Andrews Danyo, Yaw Adu-Gyamfi, Armstrong Aboah,
- Abstract要約: 我々は,Track 3 2025 AI City Challengeで導入された物理AI空間情報ウェアハウスデータセットに,専用の空間推論フレームワークを導入する。
提案手法は,入力プロンプトに直接マスク次元をバウンディングボックス座標の形で埋め込むことにより,空間的理解を高める。
私たちの包括的なパイプラインは73.0606の最終的なスコアを獲得し、全体の4位を公開リーダボードに位置づけています。
- 参考スコア(独自算出の注目度): 7.670666668651702
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial reasoning in large-scale 3D environments such as warehouses remains a significant challenge for vision-language systems due to scene clutter, occlusions, and the need for precise spatial understanding. Existing models often struggle with generalization in such settings, as they rely heavily on local appearance and lack explicit spatial grounding. In this work, we introduce a dedicated spatial reasoning framework for the Physical AI Spatial Intelligence Warehouse dataset introduced in the Track 3 2025 AI City Challenge. Our approach enhances spatial comprehension by embedding mask dimensions in the form of bounding box coordinates directly into the input prompts, enabling the model to reason over object geometry and layout. We fine-tune the framework across four question categories namely: Distance Estimation, Object Counting, Multi-choice Grounding, and Spatial Relation Inference using task-specific supervision. To further improve consistency with the evaluation system, normalized answers are appended to the GPT response within the training set. Our comprehensive pipeline achieves a final score of 73.0606, placing 4th overall on the public leaderboard. These results demonstrate the effectiveness of structured prompt enrichment and targeted optimization in advancing spatial reasoning for real-world industrial environments.
- Abstract(参考訳): 倉庫などの大規模3次元環境における空間推論は、シーンの散らかさ、閉塞、正確な空間理解の必要性から、視覚言語システムにとって重要な課題である。
既存のモデルは、局所的な外観に大きく依存し、明示的な空間的接地を欠いているため、そのような環境で一般化に苦慮することが多い。
本研究では,Track 3 2025 AI City Challengeで導入された物理AI空間情報ウェアハウスデータセットに対して,専用の空間推論フレームワークを導入する。
提案手法は,マスク次元を入力プロンプトに直接バウンディングボックス座標の形で埋め込むことで空間的理解を高め,オブジェクトの形状やレイアウトをモデル化する。
本研究では,タスク固有監督を用いた距離推定,オブジェクトカウント,マルチチョイスグラウンド,空間関係推論の4つのカテゴリにまたがってフレームワークを微調整する。
評価システムとの整合性をさらに向上するため、トレーニングセット内のGPT応答に正規化回答を付加する。
私たちの包括的なパイプラインは73.0606の最終的なスコアを獲得し、全体の4位を公開リーダボードに位置づけています。
これらの結果は,実世界の産業環境における空間推論の促進における構造的プロンプトエンリッチメントと目標最適化の有効性を示す。
関連論文リスト
- TinyGiantVLM: A Lightweight Vision-Language Architecture for Spatial Reasoning under Resource Constraints [1.7542461418660966]
本稿では,空間的推論のための軽量でモジュラーなフレームワークであるTinyGiantVLMを紹介する。
提案手法は,RGBと奥行き変調のグローバルな特徴と地域レベルの特徴を事前学習した視覚的バックボーンを用いて符号化する。
高モダリティ入力と多様な質問型の複雑性を効果的に処理するために、Mixture-of-Experts (MoE) 融合モジュールを組み込む。
論文 参考訳(メタデータ) (2025-08-25T01:36:22Z) - Enhancing Spatial Reasoning in Multimodal Large Language Models through Reasoning-based Segmentation [50.81551581148339]
本稿では、推論に基づくセグメンテーションフレームワークRelevant Reasoning(R$2$S)を紹介する。
推論に基づくセグメンテーションデータセットである3D ReasonSegについても紹介する。
どちらの実験も、R$2$Sと3D ReasonSegは、空間的推論能力の強い3D点雲知覚を効果的に達成することを示した。
論文 参考訳(メタデータ) (2025-06-29T06:58:08Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - Spatial Reasoner: A 3D Inference Pipeline for XR Applications [0.0]
本稿では,記号的述語と関係性で幾何学的事実をブリッジする空間的推論フレームワークを提案する。
その基礎は、空間的述語集合によって強化された、向き付けられた3D境界ボックス表現に依存している。
導出した述語は空間知識グラフを形成し、パイプラインベースの推論モデルと組み合わせることで、空間クエリと動的ルール評価を可能にする。
論文 参考訳(メタデータ) (2025-04-25T14:27:27Z) - Spatial-RAG: Spatial Retrieval Augmented Generation for Real-World Geospatial Reasoning Questions [5.053463027769152]
空間RAG(Spatial-RAG)は、地理空間質問応答用に設計された検索型生成フレームワークである。
構造化空間データベースと大きな言語モデル(LLM)をハイブリッド空間レトリバーを介して統合する。
応答過程を空間的および意味的関連性に対する多目的最適化として定式化する。
論文 参考訳(メタデータ) (2025-02-04T01:30:06Z) - SURDS: Benchmarking Spatial Understanding and Reasoning in Driving Scenarios with Vision Language Models [15.50826328938879]
視覚言語モデル(VLM)の空間的推論能力を評価するためのベンチマークであるSURDSを紹介する。
nuScenesデータセットに基づいて構築されたSURDSは、41,080の視覚要求回答トレーニングインスタンスと9,250の評価サンプルで構成されている。
本研究では,空間的に接地された報酬信号を利用した強化学習に基づくアライメント手法を提案する。
論文 参考訳(メタデータ) (2024-11-20T08:14:01Z) - Space3D-Bench: Spatial 3D Question Answering Benchmark [49.259397521459114]
Space3D-Benchは、Replicaデータセットのシーンに関連する1000の一般的な空間的質問と回答の集合である。
本研究では,事前定義された接地真実解に基づいて,自然言語応答を評価評価するシステムを提案する。
最後に,基礎モデルの世界理解をリッチな文脈検索と統合したRAG3D-Chatというベースラインを導入する。
論文 参考訳(メタデータ) (2024-08-29T16:05:22Z) - SpatialRGPT: Grounded Spatial Reasoning in Vision Language Models [68.13636352687257]
VLMの空間知覚と推論能力を高めるために空間領域GPT(SpatialRGPT)を導入する。
推測中、ユーザが指定した領域の提案が提供されると、SpatialRGPTは相対的な方向と距離を正確に知覚できる。
本研究では,空間的推論タスクにおける局所的プロンプトと非局所的プロンプトの双方において,空間的RGPTにより性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-06-03T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。