Fugu-MT 論文翻訳(概要): QueSTMaps: Queryable Semantic Topological Maps for 3D Scene Understanding

論文の概要: QueSTMaps: Queryable Semantic Topological Maps for 3D Scene Understanding

arxiv url: http://arxiv.org/abs/2404.06442v1
Date: Tue, 9 Apr 2024 16:42:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-10 13:51:47.804534
Title: QueSTMaps: Queryable Semantic Topological Maps for 3D Scene Understanding
Title（参考訳）: QueSTMaps:3Dシーン理解のためのクエリ可能なセマンティックトポロジマップ
Authors: Yash Mehan, Kumaraditya Gupta, Rohit Jayanti, Anirudh Govil, Sourav Garg, Madhava Krishna,
Abstract要約: シーン内の"kitchen"のようなトポロジカルな領域を分割する2ステップのパイプラインを導入します。私たちは、CLIPに準拠した機能と、それを含むオブジェクトに基づいて、ルームインスタンス毎にセマンティックラベルを生成します。部屋のセグメンテーションの最先端を20%、部屋の分類を12%上回った。
参考スコア（独自算出の注目度）: 6.455827396022967
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Understanding the structural organisation of 3D indoor scenes in terms of rooms is often accomplished via floorplan extraction. Robotic tasks such as planning and navigation require a semantic understanding of the scene as well. This is typically achieved via object-level semantic segmentation. However, such methods struggle to segment out topological regions like "kitchen" in the scene. In this work, we introduce a two-step pipeline. First, we extract a topological map, i.e., floorplan of the indoor scene using a novel multi-channel occupancy representation. Then, we generate CLIP-aligned features and semantic labels for every room instance based on the objects it contains using a self-attention transformer. Our language-topology alignment supports natural language querying, e.g., a "place to cook" locates the "kitchen". We outperform the current state-of-the-art on room segmentation by ~20% and room classification by ~12%. Our detailed qualitative analysis and ablation studies provide insights into the problem of joint structural and semantic 3D scene understanding.
Abstract（参考訳）: 3次元屋内シーンの構造的構造を部屋の観点から理解することは、しばしばフロアプラン抽出によって達成される。計画やナビゲーションといったロボットのタスクは、シーンのセマンティックな理解も必要である。これは通常、オブジェクトレベルのセマンティックセグメンテーションによって達成される。しかし、こうした手法は、現場の「吉兆」のような地形地域を分断するのに苦労している。本研究では,2段階のパイプラインを導入する。まず、新しいマルチチャネル占有率表現を用いて、屋内シーンのフロアプランというトポロジカルマップを抽出する。次に、自己アテンション変換器を用いて、格納されているオブジェクトに基づいて、各ルームインスタンスに対してCLIP対応の機能とセマンティックラベルを生成します。私たちの言語トポロジアライメントは自然言語クエリをサポートします。部屋のセグメンテーションにおける現状を20%、部屋の分類を12%上回っている。詳細な定性的分析とアブレーション研究は,共同構造と意味的な3Dシーン理解の問題に関する洞察を提供する。

関連論文リスト

Learning 3D Scene Analogies with Neural Contextual Scene Maps [17.545689536966265]
本稿では,3次元空間における関係共通点を特定するための教材を提案する。ポイントワイドやオブジェクトワイドの表現に焦点をあてるのではなく、3Dシーンのアナロジーを導入する。
論文参考訳（メタデータ） (2025-03-20T06:49:33Z)
Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文参考訳（メタデータ） (2024-11-25T10:14:10Z)
On Support Relations Inference and Scene Hierarchy Graph Construction from Point Cloud in Clustered Environments [3.4535508414601344]
3Dシーンでは、リッチな空間幾何学的・トポロジ的情報はしばしばRGBベースのシーン理解アプローチによって無視される。本研究では,物体間の関係を推定する場面理解のためのボトムアップ手法を開発した。
論文参考訳（メタデータ） (2024-04-22T02:42:32Z)
Lowis3D: Language-Driven Open-World Instance-Level 3D Scene Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文参考訳（メタデータ） (2023-08-01T07:50:14Z)
SGAligner : 3D Scene Alignment with Scene Graphs [84.01002998166145]
3Dシーングラフの構築は、いくつかの具体的AIアプリケーションのためのシーン表現のトピックとして登場した。オーバーラップ可能な3次元シーングラフのペアをゼロから部分的に整列させるという基本的な問題に着目する。そこで我々はSGAlignerを提案する。SGAlignerは3次元シーングラフのペアを組合わせるための最初の方法であり、その組込みシナリオに対して堅牢である。
論文参考訳（メタデータ） (2023-04-28T14:39:22Z)
A Review of Panoptic Segmentation for Mobile Mapping Point Clouds [16.78395191633382]
3Dポイント・クラウド・パノプティック・セグメンテーションは、(i)各ポイントをセマンティック・クラスに割り当て、(ii)各クラスのポイントをオブジェクト・インスタンスに分割する複合タスクである。近年,セマンティックセグメンテーションの急速な進歩を基盤として,このような総合的な3Dシーン理解への関心が高まっている。しかし、現在、屋外のモバイル・マッピングデータのパノプティック・セグメンテーションに関する研究はほとんど行われておらず、体系的な比較は行われていない。
論文参考訳（メタデータ） (2023-04-27T07:07:18Z)
OpenScene: 3D Scene Understanding with Open Vocabularies [73.1411930820683]
従来の3Dシーン理解アプローチは、単一のタスクのためにモデルをトレーニングするためのラベル付き3Dデータセットに依存している。私たちは,CLIP機能空間にテキストと画像ピクセルを埋め込んだ3次元シーンポイントの高密度な特徴をモデルが予測する代替手法OpenSceneを提案する。このゼロショットアプローチは、タスク非依存のトレーニングとオープン語彙クエリを可能にする。
論文参考訳（メタデータ） (2022-11-28T18:58:36Z)
Neural 3D Scene Reconstruction with the Manhattan-world Assumption [58.90559966227361]
本稿では,多視点画像から3次元屋内シーンを再構築する課題について述べる。平面的制約は、最近の暗黙の神経表現に基づく再構成手法に便利に組み込むことができる。提案手法は, 従来の手法よりも3次元再構成品質に優れていた。
論文参考訳（メタデータ） (2022-05-05T17:59:55Z)
Semantic and Geometric Modeling with Neural Message Passing in 3D Scene Graphs for Hierarchical Mechanical Search [48.655167907740136]
この問題の階層的,意味的,幾何学的側面を捉えるために,3次元シーングラフ表現を用いる。自然言語記述で指定された対象物を見つけるためのエージェントの動作を誘導する手法である階層機械探索(HMS)を紹介する。 HMSは、セマンティック関連オブジェクトを格納場所に密配置した500の3Dシーングラフのデータセットで評価されている。
論文参考訳（メタデータ） (2020-12-07T21:04:34Z)
Semantic Scene Completion using Local Deep Implicit Functions on LiDAR Data [4.355440821669468]
本稿では,シーン補完のための新しい学習手法として,局所的な深層インプリシット関数に基づくシーン分割ネットワークを提案する。この連続表現は、空間的離散化を必要とせず、広い屋外シーンの幾何学的・意味的な特性を符号化するのに適していることを示す。実験により,本手法が与えられたシーンの高密度な3次元記述にデコード可能な強力な表現を生成することを確認した。
論文参考訳（メタデータ） (2020-11-18T07:39:13Z)
Learning 3D Semantic Scene Graphs from 3D Indoor Reconstructions [94.17683799712397]
我々は、グラフ内のシーンのエンティティを整理するデータ構造であるシーングラフに焦点を当てる。本研究では,シーンの点雲からシーングラフを回帰する学習手法を提案する。本稿では,3D-3Dおよび2D-3Dマッチングの中間表現としてグラフが機能するドメインに依存しない検索タスクにおける本手法の適用について述べる。
論文参考訳（メタデータ） (2020-04-08T12:25:25Z)
Extending Maps with Semantic and Contextual Object Information for Robot Navigation: a Learning-Based Framework using Visual and Depth Cues [12.984393386954219]
本稿では,RGB-D画像からのセマンティック情報を用いて,シーンのメートル法表現を付加する問題に対処する。オブジェクトレベルの情報を持つ環境の地図表現を拡張化するための完全なフレームワークを提案する。
論文参考訳（メタデータ） (2020-03-13T15:05:23Z)
Depth Based Semantic Scene Completion with Position Importance Aware Loss [52.06051681324545]
PALNetはセマンティックシーン補完のための新しいハイブリッドネットワークである。詳細な深度情報を用いて,多段階から2次元特徴と3次元特徴の両方を抽出する。オブジェクトのバウンダリやシーンの隅といった重要な詳細を復元することは有益である。
論文参考訳（メタデータ） (2020-01-29T07:05:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。