論文の概要: A Multi-Modal Neuro-Symbolic Approach for Spatial Reasoning-Based Visual Grounding in Robotics
- arxiv url: http://arxiv.org/abs/2510.27033v1
- Date: Thu, 30 Oct 2025 22:40:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.924309
- Title: A Multi-Modal Neuro-Symbolic Approach for Spatial Reasoning-Based Visual Grounding in Robotics
- Title(参考訳): ロボットにおける空間推論に基づく視覚的グラウンドリングのためのマルチモーダルニューロシンボリックアプローチ
- Authors: Simindokht Jahangard, Mehrzad Mohammadi, Abhinav Dhall, Hamid Rezatofighi,
- Abstract要約: 本研究では,パノラマ画像と3次元点雲情報を統合したニューロ・シンボリック・フレームワークを提案する。
提案手法は,ロボット工学および組み込みAIアプリケーションに適した軽量設計を維持しつつ,混在する人間構築環境において,優れた性能と信頼性を示す。
- 参考スコア(独自算出の注目度): 20.82362652411105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual reasoning, particularly spatial reasoning, is a challenging cognitive task that requires understanding object relationships and their interactions within complex environments, especially in robotics domain. Existing vision_language models (VLMs) excel at perception tasks but struggle with fine-grained spatial reasoning due to their implicit, correlation-driven reasoning and reliance solely on images. We propose a novel neuro_symbolic framework that integrates both panoramic-image and 3D point cloud information, combining neural perception with symbolic reasoning to explicitly model spatial and logical relationships. Our framework consists of a perception module for detecting entities and extracting attributes, and a reasoning module that constructs a structured scene graph to support precise, interpretable queries. Evaluated on the JRDB-Reasoning dataset, our approach demonstrates superior performance and reliability in crowded, human_built environments while maintaining a lightweight design suitable for robotics and embodied AI applications.
- Abstract(参考訳): 視覚的推論、特に空間的推論は、複雑な環境、特にロボット分野において、オブジェクトの関係とその相互作用を理解することを必要とする困難な認知タスクである。
既存の視覚言語モデル(VLM)は知覚タスクに優れるが、暗黙的、相関駆動的推論と画像のみに依存するため、細粒度の空間推論に苦慮する。
本研究では,パノラマ画像と3次元点雲情報を統合したニューロ・シンボリック・フレームワークを提案する。
本フレームワークは,エンティティを検出し,属性を抽出する知覚モジュールと,正確に解釈可能なクエリをサポートする構造化シーングラフを構築する推論モジュールから構成される。
提案手法は,JRDB-Reasoningデータセットに基づいて,ロボット工学や組み込みAIアプリケーションに適した軽量な設計を維持しつつ,混在するヒューマン・ビルディング環境において,優れた性能と信頼性を示す。
関連論文リスト
- How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective [103.44502230776352]
視覚言語モデル(VLM)における視覚空間推論(VSR)の系統的研究について述べる。
空間インテリジェンスを3つのレベル,すなわち基本的な知覚,空間理解,空間計画,および空間インテリジェンスベンチマークSIBenchに分類した。
論文 参考訳(メタデータ) (2025-09-23T12:00:14Z) - Mind Meets Space: Rethinking Agentic Spatial Intelligence from a Neuroscience-inspired Perspective [53.556348738917166]
エージェントAIの最近の進歩は、自律的なタスク実行と言語に基づく推論が可能なシステムにつながっている。
人間の空間知能は、統合された多感覚知覚、空間記憶、認知マップに根ざし、非構造環境における柔軟でコンテキスト対応の意思決定を可能にする。
論文 参考訳(メタデータ) (2025-09-11T05:23:22Z) - Spatial Understanding from Videos: Structured Prompts Meet Simulation Data [89.77871049500546]
本稿では,事前学習された視覚言語モデルにおける3次元空間推論を,アーキテクチャを変更することなく拡張するための統一的なフレームワークを提案する。
このフレームワークは、複雑なシーンと質問を解釈可能な推論ステップに分解する構造化プロンプト戦略であるSpatialMindと、多様な3Dシミュレーションシーンから構築されたスケーラブルな質問応答データセットであるScanForgeQAを組み合わせる。
論文 参考訳(メタデータ) (2025-06-04T07:36:33Z) - Assured Autonomy with Neuro-Symbolic Perception [11.246557832016238]
サイバー物理システム(CPS)にデプロイされる最先端AIモデルの多くは、パターンマッチングである。
セキュリティの保証が限られているため、安全クリティカルなドメインと競合するドメインの信頼性が懸念される。
本稿では,データ駆動型知覚モデルにシンボル構造を付与するパラダイムシフトを提案する。
論文 参考訳(メタデータ) (2025-05-27T15:21:06Z) - SITE: towards Spatial Intelligence Thorough Evaluation [121.1493852562597]
空間知能 (Spatial Intelligence, SI) は、空間的関係の可視化、操作、推論を含む認知能力を表す。
SI Thorough Evaluationに向けたベンチマークデータセットであるSITEを紹介する。
ベンチマークの計算には、31の既存のデータセットに関するボトムアップ調査と、認知科学の3つの分類システムに基づくトップダウン戦略を組み合わせる。
論文 参考訳(メタデータ) (2025-05-08T17:45:44Z) - SPHERE: Unveiling Spatial Blind Spots in Vision-Language Models Through Hierarchical Evaluation [7.659514491338669]
現在の視覚言語モデルは、基本的な空間的手がかりを把握できるが、人間のような理解や現実世界の応用に必要な多次元空間的推論に苦慮している。
我々は,新しい人間注釈付きデータセットをサポートする階層的評価フレームワークであるSPHEREを開発した。
最先端モデルのベンチマーク評価では、特に距離と近接性についての推論において、重大な欠陥が示される。
論文 参考訳(メタデータ) (2024-12-17T09:10:55Z) - LOGICSEG: Parsing Visual Semantics with Neural Logic Learning and
Reasoning [73.98142349171552]
LOGICSEGは、神経誘導学習と論理推論をリッチデータとシンボリック知識の両方に統合する、全体論的視覚意味論である。
ファジィ論理に基づく連続的な緩和の間、論理式はデータとニューラルな計算グラフに基礎を置いており、論理によるネットワークトレーニングを可能にする。
これらの設計によりLOGICSEGは、既存のセグメンテーションモデルに容易に統合できる汎用的でコンパクトなニューラル論理マシンとなる。
論文 参考訳(メタデータ) (2023-09-24T05:43:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。