論文の概要: Queryable 3D Scene Representation: A Multi-Modal Framework for Semantic Reasoning and Robotic Task Planning
- arxiv url: http://arxiv.org/abs/2509.20077v1
- Date: Wed, 24 Sep 2025 12:53:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.814399
- Title: Queryable 3D Scene Representation: A Multi-Modal Framework for Semantic Reasoning and Robotic Task Planning
- Title(参考訳): クエリ可能な3次元シーン表現:意味的推論とロボットタスク計画のためのマルチモーダルフレームワーク
- Authors: Xun Li, Rodrigo Santa Cruz, Mingze Xi, Hu Zhang, Madhawa Perera, Ziwei Wang, Ahalya Ravendran, Brandon J. Matthews, Feng Xu, Matt Adcock, Dadong Wang, Jiajun Liu,
- Abstract要約: 3D Queryable Scene Representation(3D QSR)は、3つの補完的な3D表現を統合するマルチメディアデータ上に構築されたフレームワークである。
オブジェクト中心の設計に基づいて構築されたこのフレームワークは、意味的なクエリビリティを実現するために、大きな視覚言語モデルと統合されている。
その結果,シーン理解の促進と空間的および意味的推論の統合が,フレームワークの持つ能力を示す。
- 参考スコア(独自算出の注目度): 28.803789915686398
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: To enable robots to comprehend high-level human instructions and perform complex tasks, a key challenge lies in achieving comprehensive scene understanding: interpreting and interacting with the 3D environment in a meaningful way. This requires a smart map that fuses accurate geometric structure with rich, human-understandable semantics. To address this, we introduce the 3D Queryable Scene Representation (3D QSR), a novel framework built on multimedia data that unifies three complementary 3D representations: (1) 3D-consistent novel view rendering and segmentation from panoptic reconstruction, (2) precise geometry from 3D point clouds, and (3) structured, scalable organization via 3D scene graphs. Built on an object-centric design, the framework integrates with large vision-language models to enable semantic queryability by linking multimodal object embeddings, and supporting object-level retrieval of geometric, visual, and semantic information. The retrieved data are then loaded into a robotic task planner for downstream execution. We evaluate our approach through simulated robotic task planning scenarios in Unity, guided by abstract language instructions and using the indoor public dataset Replica. Furthermore, we apply it in a digital duplicate of a real wet lab environment to test QSR-supported robotic task planning for emergency response. The results demonstrate the framework's ability to facilitate scene understanding and integrate spatial and semantic reasoning, effectively translating high-level human instructions into precise robotic task planning in complex 3D environments.
- Abstract(参考訳): ロボットがハイレベルな人間の指示を理解し、複雑なタスクを実行するのを可能にするために、重要な課題は3D環境を意味のある方法で解釈し、相互作用する、包括的なシーン理解を実現することである。
これは、リッチで人間に理解可能な意味論で正確な幾何学的構造を融合させるスマートマップを必要とする。
そこで本研究では,3D Queryable Scene Representation(3D QSR)という3つの相補的な3D表現を統一したマルチメディアデータ上に構築された新しいフレームワークを紹介した。
オブジェクト中心の設計に基づいて構築されたこのフレームワークは、大規模な視覚言語モデルと統合され、マルチモーダルオブジェクトの埋め込みをリンクし、幾何学的、視覚的、意味的な情報のオブジェクトレベルの検索をサポートすることでセマンティッククエリービリティを実現する。
取得したデータは、ダウンストリーム実行のためにロボットタスクプランナーにロードされる。
提案手法は,抽象的な言語指導と屋内公開データセットReplicaを用いて,Unityのロボットタスク計画シナリオをシミュレーションして評価する。
さらに、実際の湿式実験室環境のデジタル複製に応用して、緊急対応のためのQSR支援ロボットタスク計画をテストする。
その結果,複雑な3次元環境下での高精度なロボット作業計画に高レベルの人的指示を効果的に翻訳し,シーン理解の促進と空間的・意味的推論の統合を実現した。
関連論文リスト
- Text-Scene: A Scene-to-Language Parsing Framework for 3D Scene Understanding [38.97818584066075]
Text-Sceneは3Dシーンを自動的にテキスト記述に解析してシーンを理解するフレームワークである。
幾何学解析とMLLMの両方を活用することで、Text-Sceneは正確で詳細で人間の解釈可能な記述を生成する。
論文 参考訳(メタデータ) (2025-09-20T15:10:45Z) - Aligning Text, Images, and 3D Structure Token-by-Token [8.521599463802637]
構造化3次元シーンにおける自己回帰モデルの可能性について検討する。
言語,画像,3Dシーンを整合させる統一LLMフレームワークを提案する。
実世界の3Dオブジェクト認識タスクにおけるモデルの有効性を示す。
論文 参考訳(メタデータ) (2025-06-09T17:59:37Z) - Language-Grounded Hierarchical Planning and Execution with Multi-Robot 3D Scene Graphs [44.52978937479273]
マッピング,ローカライゼーション,タスク・アンド・モーション・プランニング(TAMP)を統合したマルチロボットシステムを提案する。
本システムでは,マルチロボット3Dシーングラフの融合に利用されるオープンセットのオブジェクトベースマップを組み込んだ共有3Dシーングラフを構築している。
本研究では,大規模な屋外環境における実環境タスクにおけるシステム性能の実験的評価を行う。
論文 参考訳(メタデータ) (2025-06-09T06:02:34Z) - Object-X: Learning to Reconstruct Multi-Modal 3D Object Representations [112.29763628638112]
Object-Xは多目的なマルチモーダル3D表現フレームワークである。
リッチなオブジェクトの埋め込みをエンコードして、幾何学的および視覚的再構成に復号することができる。
シーンアライメント、シングルイメージの3Dオブジェクト再構成、ローカライゼーションなど、さまざまなダウンストリームタスクをサポートする。
論文 参考訳(メタデータ) (2025-06-05T09:14:42Z) - Spatial Understanding from Videos: Structured Prompts Meet Simulation Data [89.77871049500546]
本稿では,事前学習された視覚言語モデルにおける3次元空間推論を,アーキテクチャを変更することなく拡張するための統一的なフレームワークを提案する。
このフレームワークは、複雑なシーンと質問を解釈可能な推論ステップに分解する構造化プロンプト戦略であるSpatialMindと、多様な3Dシミュレーションシーンから構築されたスケーラブルな質問応答データセットであるScanForgeQAを組み合わせる。
論文 参考訳(メタデータ) (2025-06-04T07:36:33Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - Articulate3D: Holistic Understanding of 3D Scenes as Universal Scene Description [56.69740649781989]
3Dシーン理解は、コンピュータビジョンにおける長年の課題であり、混合現実、ウェアラブルコンピューティング、そして具体化されたAIを実現する上で重要な要素である。
室内280のシーンに高品質な手動アノテーションを付加した専門的な3DデータセットであるArticulate3Dを紹介する。
我々はまた,部分分割を同時に予測できる新しい統一フレームワークUSDNetと,オブジェクトの動作属性の完全な仕様を提示する。
論文 参考訳(メタデータ) (2024-12-02T11:33:55Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。