Fugu-MT 論文翻訳(概要): Indoor and Outdoor 3D Scene Graph Generation via Language-Enabled Spatial Ontologies

論文の概要: Indoor and Outdoor 3D Scene Graph Generation via Language-Enabled Spatial Ontologies

arxiv url: http://arxiv.org/abs/2312.11713v2
Date: Wed, 24 Apr 2024 21:57:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-26 23:08:00.962081
Title: Indoor and Outdoor 3D Scene Graph Generation via Language-Enabled Spatial Ontologies
Title（参考訳）: 言語可能な空間オントロジーによる屋内・屋外3次元シーングラフ生成
Authors: Jared Strader, Nathan Hughes, William Chen, Alberto Speranzon, Luca Carlone,
Abstract要約: 本稿では,任意の屋内環境と屋外環境に3次元シーングラフを構築する手法を提案する。屋外環境を記述する概念の階層構造は、屋内よりも複雑である。トレーニングデータの欠如は、屋内環境で使用される学習ベースのツールの直接的な適用を妨げる。
参考スコア（独自算出の注目度）: 16.396336068724484
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper proposes an approach to build 3D scene graphs in arbitrary indoor and outdoor environments. Such extension is challenging; the hierarchy of concepts that describe an outdoor environment is more complex than for indoors, and manually defining such hierarchy is time-consuming and does not scale. Furthermore, the lack of training data prevents the straightforward application of learning-based tools used in indoor settings. To address these challenges, we propose two novel extensions. First, we develop methods to build a spatial ontology defining concepts and relations relevant for indoor and outdoor robot operation. In particular, we use a Large Language Model (LLM) to build such an ontology, thus largely reducing the amount of manual effort required. Second, we leverage the spatial ontology for 3D scene graph construction using Logic Tensor Networks (LTN) to add logical rules, or axioms (e.g., "a beach contains sand"), which provide additional supervisory signals at training time thus reducing the need for labelled data, providing better predictions, and even allowing predicting concepts unseen at training time. We test our approach in a variety of datasets, including indoor, rural, and coastal environments, and show that it leads to a significant increase in the quality of the 3D scene graph generation with sparsely annotated data.
Abstract（参考訳）: 本稿では,任意の屋内環境と屋外環境に3次元シーングラフを構築する手法を提案する。このような拡張は困難であり、屋外環境を記述する概念の階層は屋内よりも複雑であり、手動でそのような階層を定義するのは時間を要するためスケールしない。さらに、トレーニングデータの欠如は、屋内環境で使用される学習ツールの直接的な適用を妨げている。これらの課題に対処するため、我々は2つの新しい拡張を提案する。まず,室内と屋外のロボット操作に関連する概念と関係を定義する空間オントロジーを構築する手法を開発する。特に、そのようなオントロジーを構築するためにLLM(Large Language Model)を使用します。第2に、論理テンソルネットワーク(LTN)を用いた3次元シーングラフ構築のための空間オントロジーを活用し、論理ルールや公理(例えば「砂を含むビーチ」)を付加することで、トレーニング時に追加の監視信号を提供し、ラベル付きデータの必要性を低減し、より良い予測を提供し、トレーニング時に見つからない概念の予測を可能にする。室内環境,農村環境,沿岸環境など,さまざまなデータセットを用いて本手法を検証した結果,微少な注釈付きデータによる3Dシーングラフ生成の品質向上が確認できた。

関連論文リスト

SURPRISE3D: A Dataset for Spatial Understanding and Reasoning in Complex 3D Scenes [105.8644620467576]
Stextscurprise3Dは複雑な3次元シーンにおける言語誘導空間推論のセグメンテーションを評価するために設計された新しいデータセットである。 Stextscurprise3Dは、ScanNet++ v2から900以上の詳細な屋内シーンにわたる200k以上の視覚言語ペアで構成されている。データセットには、オブジェクト名なしで意図的に作成される89k以上の人間アノテーション付き空間クエリが含まれている。
論文参考訳（メタデータ） (2025-07-10T14:01:24Z)
Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文参考訳（メタデータ） (2025-05-26T15:28:17Z)
Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文参考訳（メタデータ） (2024-11-25T10:14:10Z)
ROOT: VLM based System for Indoor Scene Understanding and Beyond [83.71252153660078]
ROOTは、室内シーンの分析を強化するために設計されたVLMベースのシステムである。 rootnameは、屋内シーンの理解を促進し、3Dシーン生成や組み込みAIなど、さまざまな下流アプリケーションに有効であることを証明します。
論文参考訳（メタデータ） (2024-11-24T04:51:24Z)
Generalized Label-Efficient 3D Scene Parsing via Hierarchical Feature Aligned Pre-Training and Region-Aware Fine-tuning [55.517000360348725]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。室内と屋外の両方で実験を行ったところ、データ効率のよい学習とオープンワールドの複数ショット学習の両方において、我々のアプローチの有効性が示された。
論文参考訳（メタデータ） (2023-12-01T15:47:04Z)
ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and Planning [125.90002884194838]
ConceptGraphsはオープンな3Dシーン用のグラフ構造化表現である。 2Dファウンデーションモデルを活用し、マルチビューアソシエーションによってアウトプットを3Dに融合することで構築される。我々は,この表現の有用性を,下流の計画タスクを通じて実証する。
論文参考訳（メタデータ） (2023-09-28T17:53:38Z)
3D Annotation Of Arbitrary Objects In The Wild [0.0]
SLAM, 3D再構成, 3D-to-2D幾何に基づくデータアノテーションパイプラインを提案する。このパイプラインは、任意のオブジェクトのピクセル単位のアノテーションとともに、3Dおよび2Dバウンディングボックスを作成することができる。以上の結果から, セマンティックセグメンテーションと2次元バウンディングボックス検出において, 約90%のインターセクション・オーバー・ユニオン(IoU)が一致していることがわかった。
論文参考訳（メタデータ） (2021-09-15T09:00:56Z)
RandomRooms: Unsupervised Pre-training from Synthetic Shapes and Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文参考訳（メタデータ） (2021-08-17T17:56:12Z)
Occlusion Guided Self-supervised Scene Flow Estimation on 3D Point Clouds [4.518012967046983]
2つの連続時間フレーム間のスパースサンプリング点の3次元空間における流れを理解することは、現代の幾何学駆動系の中核石である。本稿では,咬合下の3次元シーンフロー推定のための新しい自己教師あり学習法とアーキテクチャを提案する。
論文参考訳（メタデータ） (2021-04-10T09:55:19Z)
Walk2Map: Extracting Floor Plans from Indoor Walk Trajectories [23.314557741879664]
室内を歩く人の軌跡からフロアプランを生成するデータ駆動型アプローチであるWalk2Mapを紹介します。データ駆動慣性オドメトリーの進歩により、そのような最小限の入力データは、コンシューマレベルのスマートフォンのIMU読み取りから得ることができる。スキャンした3d屋内モデルを用いてネットワークをトレーニングし、屋内歩行軌跡にカスケードな方法で適用する。
論文参考訳（メタデータ） (2021-02-27T16:29:09Z)
PointContrast: Unsupervised Pre-training for 3D Point Cloud Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文参考訳（メタデータ） (2020-07-21T17:59:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。