論文の概要: Open-Fusion: Real-time Open-Vocabulary 3D Mapping and Queryable Scene
Representation
- arxiv url: http://arxiv.org/abs/2310.03923v1
- Date: Thu, 5 Oct 2023 21:57:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-10 06:12:57.538137
- Title: Open-Fusion: Real-time Open-Vocabulary 3D Mapping and Queryable Scene
Representation
- Title(参考訳): OpenFusion: リアルタイムオープンな3Dマッピングとクエリ可能なシーン表現
- Authors: Kashu Yamazaki, Taisei Hanyu, Khoa Vo, Thang Pham, Minh Tran,
Gianfranco Doretto, Anh Nguyen, Ngan Le
- Abstract要約: Open-Fusionはリアルタイムオープンな3Dマッピングとクエリ可能なシーン表現のための画期的なアプローチである。
オープンセットのセマンティック理解のために、事前訓練された視覚言語基盤モデル(VLFM)の力を利用する。
追加の3Dトレーニングを必要とせずに、オープン語彙に優れたアノテーションのない3Dセグメンテーションを提供する。
- 参考スコア(独自算出の注目度): 13.770613689032503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Precise 3D environmental mapping is pivotal in robotics. Existing methods
often rely on predefined concepts during training or are time-intensive when
generating semantic maps. This paper presents Open-Fusion, a groundbreaking
approach for real-time open-vocabulary 3D mapping and queryable scene
representation using RGB-D data. Open-Fusion harnesses the power of a
pre-trained vision-language foundation model (VLFM) for open-set semantic
comprehension and employs the Truncated Signed Distance Function (TSDF) for
swift 3D scene reconstruction. By leveraging the VLFM, we extract region-based
embeddings and their associated confidence maps. These are then integrated with
3D knowledge from TSDF using an enhanced Hungarian-based feature-matching
mechanism. Notably, Open-Fusion delivers outstanding annotation-free 3D
segmentation for open-vocabulary without necessitating additional 3D training.
Benchmark tests on the ScanNet dataset against leading zero-shot methods
highlight Open-Fusion's superiority. Furthermore, it seamlessly combines the
strengths of region-based VLFM and TSDF, facilitating real-time 3D scene
comprehension that includes object concepts and open-world semantics. We
encourage the readers to view the demos on our project page:
https://uark-aicv.github.io/OpenFusion
- Abstract(参考訳): 正確な3d環境マッピングはロボット工学において重要である。
既存のメソッドはトレーニング中に事前定義された概念に依存することが多いし、セマンティックマップを生成するのに時間を要する。
本稿では,RGB-Dデータを用いたリアルタイムオープンな3Dマッピングとクエリ可能なシーン表現のための基盤的アプローチであるOpen-Fusionを提案する。
Open-Fusionは、オープンセット意味理解のための事前学習された視覚言語基盤モデル(VLFM)のパワーを活用し、3Dシーンの迅速な再構築にTSDF(Trncated Signed Distance Function)を使用している。
VLFMを利用して、領域ベースの埋め込みとその関連する信頼マップを抽出する。
その後、ハンガリーの強化された特徴マッチング機構を使用して、TSDFの3D知識と統合される。
特にopen-fusionは、追加の3dトレーニングを必要とせずに、open-vocabularyのアノテーションフリーな3dセグメンテーションを提供する。
主要なゼロショットメソッドに対するScanNetデータセットのベンチマークテストは、Open-Fusionの優位性を強調している。
さらに、地域ベースのvlfmとtsdfの強みをシームレスに組み合わせ、オブジェクト概念とオープンワールドセマンティクスを含むリアルタイム3dシーン理解を促進する。
私たちは、プロジェクトのページでデモを見るよう読者に勧めています。
関連論文リスト
- VLM-Grounder: A VLM Agent for Zero-Shot 3D Visual Grounding [57.04804711488706]
3Dビジュアルグラウンドティングはロボットにとって不可欠であり、自然言語と3Dシーン理解を統合する必要がある。
VLM-Grounderは視覚言語モデル(VLM)を用いて2次元画像のみに基づくゼロショット3次元視覚グラウンドティングを行う新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-17T17:59:55Z) - OpenSU3D: Open World 3D Scene Understanding using Foundation Models [2.1262749936758216]
オープンセット, インスタンスレベルの3次元シーン表現を構築するための, 新規でスケーラブルなアプローチを提案する。
既存の方法は、事前に構築された3Dシーンと、ポイント単位の機能ベクトル学習によるスケーラビリティの問題を必要とする。
ゼロショット一般化機能を示すScanNetとReplicaのデータセットから,複数のシーンに対する提案手法の評価を行った。
論文 参考訳(メタデータ) (2024-07-19T13:01:12Z) - OpenGaussian: Towards Point-Level 3D Gaussian-based Open Vocabulary Understanding [54.981605111365056]
本稿では,3次元点レベルの開語彙理解が可能な3次元ガウススティング(3DGS)に基づくOpenGaussianを紹介する。
我々の主な動機は、既存の3DGSベースのオープン語彙法が主に2Dピクセルレベルの解析に焦点を当てていることに起因している。
論文 参考訳(メタデータ) (2024-06-04T07:42:33Z) - Open-Vocabulary SAM3D: Towards Training-free Open-Vocabulary 3D Scene Understanding [41.96929575241655]
OV-SAM3Dはオープンな3Dシーンを理解するための訓練不要な手法である。
このフレームワークは、シーンの事前の知識を必要とせずに、任意の3Dシーンの理解タスクを実行するように設計されている。
ScanNet200 と nuScenes のデータセットに対する実証的な評価は、我々のアプローチが未知のオープンワールド環境における既存のオープンボキャブラリ手法を上回ることを示している。
論文 参考訳(メタデータ) (2024-05-24T14:07:57Z) - OpenNeRF: Open Set 3D Neural Scene Segmentation with Pixel-Wise Features and Rendered Novel Views [90.71215823587875]
提案するOpenNeRFは,ポーズ画像上で自然に動作し,NeRF内のVLM機能を直接符号化する。
我々の研究は、ピクセルワイドVLM機能を用いることで、DINO正規化を必要とせずに、全体的なアーキテクチャがより複雑になることを示している。
Replicaデータセット上の3Dポイントクラウドセグメンテーションでは、OpenNeRFはLERFやOpenSceneといった最近のオープン語彙法を少なくとも4.9 mIoUで上回っている。
論文 参考訳(メタデータ) (2024-04-04T17:59:08Z) - Open3DSG: Open-Vocabulary 3D Scene Graphs from Point Clouds with Queryable Objects and Open-Set Relationships [15.513180297629546]
ラベル付きシーングラフデータを必要としないオープンな世界で3次元シーングラフを学習するための代替手法であるOpen3DSGを提案する。
我々は,3次元シーングラフ予測バックボーンの機能を,強力なオープンワールド2Dビジョン言語基盤モデルの特徴空間と組み合わせた。
論文 参考訳(メタデータ) (2024-02-19T16:15:03Z) - ConceptFusion: Open-set Multimodal 3D Mapping [91.23054486724402]
ConceptFusionは基本的にオープンセットのシーン表現である。
これは、閉じた概念や本質的にはマルチモーダル以上の推論を可能にする。
実世界の多くのデータセット上でConceptFusionを評価する。
論文 参考訳(メタデータ) (2023-02-14T18:40:26Z) - Diffusion-SDF: Text-to-Shape via Voxelized Diffusion [90.85011923436593]
本研究では,テキスト・ツー・シェイプ合成の課題に対して,Diffusion-SDFと呼ばれる新しい3次元モデリングフレームワークを提案する。
本研究では,Diffusion-SDFが与えられたテキスト記述によく適合する高品質な3次元形状と,より多様化した3次元形状の両方を生成することを示す。
論文 参考訳(メタデータ) (2022-12-06T19:46:47Z) - OpenScene: 3D Scene Understanding with Open Vocabularies [73.1411930820683]
従来の3Dシーン理解アプローチは、単一のタスクのためにモデルをトレーニングするためのラベル付き3Dデータセットに依存している。
私たちは,CLIP機能空間にテキストと画像ピクセルを埋め込んだ3次元シーンポイントの高密度な特徴をモデルが予測する代替手法OpenSceneを提案する。
このゼロショットアプローチは、タスク非依存のトレーニングとオープン語彙クエリを可能にする。
論文 参考訳(メタデータ) (2022-11-28T18:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。