論文の概要: QueSTMaps: Queryable Semantic Topological Maps for 3D Scene Understanding
- arxiv url: http://arxiv.org/abs/2404.06442v2
- Date: Thu, 12 Dec 2024 08:48:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 17:01:03.329750
- Title: QueSTMaps: Queryable Semantic Topological Maps for 3D Scene Understanding
- Title(参考訳): QueSTMaps:3Dシーン理解のためのクエリ可能なセマンティックトポロジマップ
- Authors: Yash Mehan, Kumaraditya Gupta, Rohit Jayanti, Anirudh Govil, Sourav Garg, Madhava Krishna,
- Abstract要約: 計画やナビゲーションのようなロボットのタスクは、シーンの階層的な意味理解を必要とする。
この問題を解決するために2段階のパイプラインを導入します。
私たちは、CLIPに準拠した機能と、それを含むオブジェクトに基づいて、ルームインスタンス毎にセマンティックラベルを生成します。
- 参考スコア(独自算出の注目度): 6.455827396022967
- License:
- Abstract: Robotic tasks such as planning and navigation require a hierarchical semantic understanding of a scene, which could include multiple floors and rooms. Current methods primarily focus on object segmentation for 3D scene understanding. However, such methods struggle to segment out topological regions like "kitchen" in the scene. In this work, we introduce a two-step pipeline to solve this problem. First, we extract a topological map, i.e., floorplan of the indoor scene using a novel multi-channel occupancy representation. Then, we generate CLIP-aligned features and semantic labels for every room instance based on the objects it contains using a self-attention transformer. Our language-topology alignment supports natural language querying, e.g., a "place to cook" locates the "kitchen". We outperform the current state-of-the-art on room segmentation by ~20% and room classification by ~12%. Our detailed qualitative analysis and ablation studies provide insights into the problem of joint structural and semantic 3D scene understanding. Project Page: quest-maps.github.io
- Abstract(参考訳): 計画やナビゲーションのようなロボットのタスクは、複数のフロアや部屋を含むシーンの階層的な意味理解を必要とする。
現在の手法は主に3次元シーン理解のためのオブジェクトセグメンテーションに焦点を当てている。
しかし、こうした手法は、現場の「吉兆」のような地形地域を分断するのに苦労している。
本研究では,この問題を解決するための2段階のパイプラインを提案する。
まず、新しいマルチチャネル占有率表現を用いて、屋内シーンのフロアプランというトポロジカルマップを抽出する。
次に、自己アテンション変換器を用いて、格納されているオブジェクトに基づいて、各ルームインスタンスに対してCLIP対応の機能とセマンティックラベルを生成します。
私たちの言語トポロジアライメントは自然言語クエリをサポートします。
部屋のセグメンテーションにおける現状を20%、部屋の分類を12%上回っている。
詳細な定性的分析とアブレーション研究は,共同構造と意味的な3Dシーン理解の問題に関する洞察を提供する。
Project Page: quest-maps.github.io
関連論文リスト
- Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - On Support Relations Inference and Scene Hierarchy Graph Construction from Point Cloud in Clustered Environments [3.4535508414601344]
3Dシーンでは、リッチな空間幾何学的・トポロジ的情報はしばしばRGBベースのシーン理解アプローチによって無視される。
本研究では,物体間の関係を推定する場面理解のためのボトムアップ手法を開発した。
論文 参考訳(メタデータ) (2024-04-22T02:42:32Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - OpenScene: 3D Scene Understanding with Open Vocabularies [73.1411930820683]
従来の3Dシーン理解アプローチは、単一のタスクのためにモデルをトレーニングするためのラベル付き3Dデータセットに依存している。
私たちは,CLIP機能空間にテキストと画像ピクセルを埋め込んだ3次元シーンポイントの高密度な特徴をモデルが予測する代替手法OpenSceneを提案する。
このゼロショットアプローチは、タスク非依存のトレーニングとオープン語彙クエリを可能にする。
論文 参考訳(メタデータ) (2022-11-28T18:58:36Z) - Semantic and Geometric Modeling with Neural Message Passing in 3D Scene
Graphs for Hierarchical Mechanical Search [48.655167907740136]
この問題の階層的,意味的,幾何学的側面を捉えるために,3次元シーングラフ表現を用いる。
自然言語記述で指定された対象物を見つけるためのエージェントの動作を誘導する手法である階層機械探索(HMS)を紹介する。
HMSは、セマンティック関連オブジェクトを格納場所に密配置した500の3Dシーングラフのデータセットで評価されている。
論文 参考訳(メタデータ) (2020-12-07T21:04:34Z) - Semantic Scene Completion using Local Deep Implicit Functions on LiDAR
Data [4.355440821669468]
本稿では,シーン補完のための新しい学習手法として,局所的な深層インプリシット関数に基づくシーン分割ネットワークを提案する。
この連続表現は、空間的離散化を必要とせず、広い屋外シーンの幾何学的・意味的な特性を符号化するのに適していることを示す。
実験により,本手法が与えられたシーンの高密度な3次元記述にデコード可能な強力な表現を生成することを確認した。
論文 参考訳(メタデータ) (2020-11-18T07:39:13Z) - Learning 3D Semantic Scene Graphs from 3D Indoor Reconstructions [94.17683799712397]
我々は、グラフ内のシーンのエンティティを整理するデータ構造であるシーングラフに焦点を当てる。
本研究では,シーンの点雲からシーングラフを回帰する学習手法を提案する。
本稿では,3D-3Dおよび2D-3Dマッチングの中間表現としてグラフが機能するドメインに依存しない検索タスクにおける本手法の適用について述べる。
論文 参考訳(メタデータ) (2020-04-08T12:25:25Z) - Extending Maps with Semantic and Contextual Object Information for Robot
Navigation: a Learning-Based Framework using Visual and Depth Cues [12.984393386954219]
本稿では,RGB-D画像からのセマンティック情報を用いて,シーンのメートル法表現を付加する問題に対処する。
オブジェクトレベルの情報を持つ環境の地図表現を拡張化するための完全なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-13T15:05:23Z) - Depth Based Semantic Scene Completion with Position Importance Aware
Loss [52.06051681324545]
PALNetはセマンティックシーン補完のための新しいハイブリッドネットワークである。
詳細な深度情報を用いて,多段階から2次元特徴と3次元特徴の両方を抽出する。
オブジェクトのバウンダリやシーンの隅といった重要な詳細を復元することは有益である。
論文 参考訳(メタデータ) (2020-01-29T07:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。