論文の概要: Relationship-Aware Hierarchical 3D Scene Graph for Task Reasoning
- arxiv url: http://arxiv.org/abs/2602.02456v1
- Date: Mon, 02 Feb 2026 18:47:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.099956
- Title: Relationship-Aware Hierarchical 3D Scene Graph for Task Reasoning
- Title(参考訳): タスク推論のための関係性を考慮した階層型3次元シーングラフ
- Authors: Albert Gassol Puigjaner, Angelos Zacharia, Kostas Alexis,
- Abstract要約: 本稿では,複数の抽象化レベルにまたがるオープン語彙機能を統合し,オブジェクト-リレーショナル推論をサポートする階層型3Dシーングラフを提案する。
本稿では,Large Language Models(LLM)とVLM(Vision Language Model)を組み合わせて,シーングラフのセマンティックおよびリレーショナル情報を解釈するタスク推論モジュールを提案する。
我々は,複数の環境やタスクにおいて,四足歩行ロボットに配置することで,その方法を検証する。
- 参考スコア(独自算出の注目度): 10.364779390403337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Representing and understanding 3D environments in a structured manner is crucial for autonomous agents to navigate and reason about their surroundings. While traditional Simultaneous Localization and Mapping (SLAM) methods generate metric reconstructions and can be extended to metric-semantic mapping, they lack a higher level of abstraction and relational reasoning. To address this gap, 3D scene graphs have emerged as a powerful representation for capturing hierarchical structures and object relationships. In this work, we propose an enhanced hierarchical 3D scene graph that integrates open-vocabulary features across multiple abstraction levels and supports object-relational reasoning. Our approach leverages a Vision Language Model (VLM) to infer semantic relationships. Notably, we introduce a task reasoning module that combines Large Language Models (LLM) and a VLM to interpret the scene graph's semantic and relational information, enabling agents to reason about tasks and interact with their environment more intelligently. We validate our method by deploying it on a quadruped robot in multiple environments and tasks, highlighting its ability to reason about them.
- Abstract(参考訳): 3D環境を構造化された方法で表現し、理解することは、自律的なエージェントが周囲をナビゲートし、推論することが不可欠である。
従来のSLAM法ではメートル法再構成が生成され、メートル法-セマンティックマッピングにまで拡張されるが、より高度な抽象化とリレーショナル推論が欠如している。
このギャップに対処するため、3Dシーングラフは階層構造とオブジェクトの関係を捉えるための強力な表現として登場した。
本研究では,複数の抽象化レベルにまたがるオープン語彙機能を統合し,オブジェクト-リレーショナル推論をサポートする階層型3Dシーングラフを提案する。
提案手法は視覚言語モデル(VLM)を用いて意味的関係を推論する。
特に,Large Language Models(LLM)とVLMを組み合わせたタスク推論モジュールを導入し,シーングラフのセマンティックおよびリレーショナル情報を解釈し,エージェントがタスクを推論し,よりインテリジェントに環境と対話できるようにする。
我々は,複数の環境やタスクにおいて,四足歩行ロボットに配置することで,その方法を検証する。
関連論文リスト
- ReLaGS: Relational Language Gaussian Splatting [20.136674901612334]
本稿では,階層型言語で区切られたガウシアンシーンと,シーン固有の訓練を伴わない3Dセマンティックシーングラフを構築する新しいフレームワークを提案する。
この階層の上に、視覚言語由来のアノテーションとグラフニューラルネットワークに基づくリレーショナル推論を備えたオープンな3Dシーングラフを構築します。
本手法は,階層的セマンティクスとオブジェクト間の相互関係を共同でモデル化することにより,効率的でスケーラブルな3次元推論を可能にする。
論文 参考訳(メタデータ) (2026-03-18T11:18:23Z) - Open-World 3D Scene Graph Generation for Retrieval-Augmented Reasoning [24.17324180628543]
本稿では,Retrieval-Augmented Reasoningを用いたOpen-World 3D Scene Graph Generationの統一フレームワークを提案する。
本手法は,視覚言語モデル(VLM)と検索に基づく推論を統合し,マルチモーダル探索と言語誘導インタラクションを支援する。
本研究では,3DSSG と Replica ベンチマークを用いて,多様な環境下での堅牢な一般化と優れた性能を実証する4つのタスクシーンの質問応答,視覚的グラウンド,インスタンス検索,タスク計画の検証を行った。
論文 参考訳(メタデータ) (2025-11-08T07:37:29Z) - KeySG: Hierarchical Keyframe-Based 3D Scene Graphs [1.5134439544218246]
KeySGは3Dシーンを、床、部屋、オブジェクト、機能要素からなる階層的なグラフとして表現している。
我々はVLMを利用してシーン情報を抽出し、オブジェクト間の関係エッジを明示的にモデル化する必要性を緩和する。
我々のアプローチは、大規模シーングラフに関連するスケーラビリティ問題を緩和しながら、複雑であいまいなクエリを処理できる。
論文 参考訳(メタデータ) (2025-10-01T15:53:27Z) - A Neural Representation Framework with LLM-Driven Spatial Reasoning for Open-Vocabulary 3D Visual Grounding [78.99798110890157]
Open-vocabulary 3D visual groundingは、自由形式の言語クエリに基づいてターゲットオブジェクトをローカライズすることを目的としている。
既存の言語フィールド手法は、言語クエリにおける空間的関係を利用してインスタンスを正確にローカライズするのに苦労する。
本研究では,大規模言語モデル(LLM)に基づく空間推論を用いたニューラル表現に基づく新しいフレームワークであるSpatialReasonerを提案する。
論文 参考訳(メタデータ) (2025-07-09T10:20:38Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - DSM: Constructing a Diverse Semantic Map for 3D Visual Grounding [4.016097197373127]
本稿では,VLM由来のセマンティクスのスペクトルを持つロバストな幾何学的モデルに富むシーン表現フレームワークであるDSM(Diverse Semantic Map)フレームワークを紹介する。
ScanReferのベンチマークでは、DSM-GroundingはIoU@0.5の59.06%の精度を達成し、他を10%上回っている。
セマンティックセグメンテーションでは、DSMは67.93%のF-mIoUを獲得し、特権のあるものを含むすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2025-04-11T07:18:42Z) - IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and
Planning [125.90002884194838]
ConceptGraphsはオープンな3Dシーン用のグラフ構造化表現である。
2Dファウンデーションモデルを活用し、マルチビューアソシエーションによってアウトプットを3Dに融合することで構築される。
我々は,この表現の有用性を,下流の計画タスクを通じて実証する。
論文 参考訳(メタデータ) (2023-09-28T17:53:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。