論文の概要: QueSTMaps: Queryable Semantic Topological Maps for 3D Scene Understanding
- arxiv url: http://arxiv.org/abs/2404.06442v1
- Date: Tue, 9 Apr 2024 16:42:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 13:51:47.804534
- Title: QueSTMaps: Queryable Semantic Topological Maps for 3D Scene Understanding
- Title(参考訳): QueSTMaps:3Dシーン理解のためのクエリ可能なセマンティックトポロジマップ
- Authors: Yash Mehan, Kumaraditya Gupta, Rohit Jayanti, Anirudh Govil, Sourav Garg, Madhava Krishna,
- Abstract要約: シーン内の"kitchen"のようなトポロジカルな領域を分割する2ステップのパイプラインを導入します。
私たちは、CLIPに準拠した機能と、それを含むオブジェクトに基づいて、ルームインスタンス毎にセマンティックラベルを生成します。
部屋のセグメンテーションの最先端を20%、部屋の分類を12%上回った。
- 参考スコア(独自算出の注目度): 6.455827396022967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the structural organisation of 3D indoor scenes in terms of rooms is often accomplished via floorplan extraction. Robotic tasks such as planning and navigation require a semantic understanding of the scene as well. This is typically achieved via object-level semantic segmentation. However, such methods struggle to segment out topological regions like "kitchen" in the scene. In this work, we introduce a two-step pipeline. First, we extract a topological map, i.e., floorplan of the indoor scene using a novel multi-channel occupancy representation. Then, we generate CLIP-aligned features and semantic labels for every room instance based on the objects it contains using a self-attention transformer. Our language-topology alignment supports natural language querying, e.g., a "place to cook" locates the "kitchen". We outperform the current state-of-the-art on room segmentation by ~20% and room classification by ~12%. Our detailed qualitative analysis and ablation studies provide insights into the problem of joint structural and semantic 3D scene understanding.
- Abstract(参考訳): 3次元屋内シーンの構造的構造を部屋の観点から理解することは、しばしばフロアプラン抽出によって達成される。
計画やナビゲーションといったロボットのタスクは、シーンのセマンティックな理解も必要である。
これは通常、オブジェクトレベルのセマンティックセグメンテーションによって達成される。
しかし、こうした手法は、現場の「吉兆」のような地形地域を分断するのに苦労している。
本研究では,2段階のパイプラインを導入する。
まず、新しいマルチチャネル占有率表現を用いて、屋内シーンのフロアプランというトポロジカルマップを抽出する。
次に、自己アテンション変換器を用いて、格納されているオブジェクトに基づいて、各ルームインスタンスに対してCLIP対応の機能とセマンティックラベルを生成します。
私たちの言語トポロジアライメントは自然言語クエリをサポートします。
部屋のセグメンテーションにおける現状を20%、部屋の分類を12%上回っている。
詳細な定性的分析とアブレーション研究は,共同構造と意味的な3Dシーン理解の問題に関する洞察を提供する。
関連論文リスト
- Functionality understanding and segmentation in 3D scenes [6.1744362771344]
Fun3DUは、3Dシーンで機能を理解するために設計された最初のアプローチである。
Fun3DUは言語モデルを使用して、Chain-of-Thought推論を通じてタスク記述を解析する。
我々はFun3DUをSceneFun3D上で評価する。
論文 参考訳(メタデータ) (2024-11-25T11:57:48Z) - On Support Relations Inference and Scene Hierarchy Graph Construction from Point Cloud in Clustered Environments [3.4535508414601344]
3Dシーンでは、リッチな空間幾何学的・トポロジ的情報はしばしばRGBベースのシーン理解アプローチによって無視される。
本研究では,物体間の関係を推定する場面理解のためのボトムアップ手法を開発した。
論文 参考訳(メタデータ) (2024-04-22T02:42:32Z) - SGAligner : 3D Scene Alignment with Scene Graphs [84.01002998166145]
3Dシーングラフの構築は、いくつかの具体的AIアプリケーションのためのシーン表現のトピックとして登場した。
オーバーラップ可能な3次元シーングラフのペアをゼロから部分的に整列させるという基本的な問題に着目する。
そこで我々はSGAlignerを提案する。SGAlignerは3次元シーングラフのペアを組合わせるための最初の方法であり、その組込みシナリオに対して堅牢である。
論文 参考訳(メタデータ) (2023-04-28T14:39:22Z) - A Review of Panoptic Segmentation for Mobile Mapping Point Clouds [16.78395191633382]
3Dポイント・クラウド・パノプティック・セグメンテーションは、(i)各ポイントをセマンティック・クラスに割り当て、(ii)各クラスのポイントをオブジェクト・インスタンスに分割する複合タスクである。
近年,セマンティックセグメンテーションの急速な進歩を基盤として,このような総合的な3Dシーン理解への関心が高まっている。
しかし、現在、屋外のモバイル・マッピングデータのパノプティック・セグメンテーションに関する研究はほとんど行われておらず、体系的な比較は行われていない。
論文 参考訳(メタデータ) (2023-04-27T07:07:18Z) - OpenScene: 3D Scene Understanding with Open Vocabularies [73.1411930820683]
従来の3Dシーン理解アプローチは、単一のタスクのためにモデルをトレーニングするためのラベル付き3Dデータセットに依存している。
私たちは,CLIP機能空間にテキストと画像ピクセルを埋め込んだ3次元シーンポイントの高密度な特徴をモデルが予測する代替手法OpenSceneを提案する。
このゼロショットアプローチは、タスク非依存のトレーニングとオープン語彙クエリを可能にする。
論文 参考訳(メタデータ) (2022-11-28T18:58:36Z) - Neural 3D Scene Reconstruction with the Manhattan-world Assumption [58.90559966227361]
本稿では,多視点画像から3次元屋内シーンを再構築する課題について述べる。
平面的制約は、最近の暗黙の神経表現に基づく再構成手法に便利に組み込むことができる。
提案手法は, 従来の手法よりも3次元再構成品質に優れていた。
論文 参考訳(メタデータ) (2022-05-05T17:59:55Z) - Semantic and Geometric Modeling with Neural Message Passing in 3D Scene
Graphs for Hierarchical Mechanical Search [48.655167907740136]
この問題の階層的,意味的,幾何学的側面を捉えるために,3次元シーングラフ表現を用いる。
自然言語記述で指定された対象物を見つけるためのエージェントの動作を誘導する手法である階層機械探索(HMS)を紹介する。
HMSは、セマンティック関連オブジェクトを格納場所に密配置した500の3Dシーングラフのデータセットで評価されている。
論文 参考訳(メタデータ) (2020-12-07T21:04:34Z) - Learning 3D Semantic Scene Graphs from 3D Indoor Reconstructions [94.17683799712397]
我々は、グラフ内のシーンのエンティティを整理するデータ構造であるシーングラフに焦点を当てる。
本研究では,シーンの点雲からシーングラフを回帰する学習手法を提案する。
本稿では,3D-3Dおよび2D-3Dマッチングの中間表現としてグラフが機能するドメインに依存しない検索タスクにおける本手法の適用について述べる。
論文 参考訳(メタデータ) (2020-04-08T12:25:25Z) - Extending Maps with Semantic and Contextual Object Information for Robot
Navigation: a Learning-Based Framework using Visual and Depth Cues [12.984393386954219]
本稿では,RGB-D画像からのセマンティック情報を用いて,シーンのメートル法表現を付加する問題に対処する。
オブジェクトレベルの情報を持つ環境の地図表現を拡張化するための完全なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-13T15:05:23Z) - Depth Based Semantic Scene Completion with Position Importance Aware
Loss [52.06051681324545]
PALNetはセマンティックシーン補完のための新しいハイブリッドネットワークである。
詳細な深度情報を用いて,多段階から2次元特徴と3次元特徴の両方を抽出する。
オブジェクトのバウンダリやシーンの隅といった重要な詳細を復元することは有益である。
論文 参考訳(メタデータ) (2020-01-29T07:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。