論文の概要: Open-Fusion: Real-time Open-Vocabulary 3D Mapping and Queryable Scene
Representation
- arxiv url: http://arxiv.org/abs/2310.03923v1
- Date: Thu, 5 Oct 2023 21:57:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-10 06:12:57.538137
- Title: Open-Fusion: Real-time Open-Vocabulary 3D Mapping and Queryable Scene
Representation
- Title(参考訳): OpenFusion: リアルタイムオープンな3Dマッピングとクエリ可能なシーン表現
- Authors: Kashu Yamazaki, Taisei Hanyu, Khoa Vo, Thang Pham, Minh Tran,
Gianfranco Doretto, Anh Nguyen, Ngan Le
- Abstract要約: Open-Fusionはリアルタイムオープンな3Dマッピングとクエリ可能なシーン表現のための画期的なアプローチである。
オープンセットのセマンティック理解のために、事前訓練された視覚言語基盤モデル(VLFM)の力を利用する。
追加の3Dトレーニングを必要とせずに、オープン語彙に優れたアノテーションのない3Dセグメンテーションを提供する。
- 参考スコア(独自算出の注目度): 13.770613689032503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Precise 3D environmental mapping is pivotal in robotics. Existing methods
often rely on predefined concepts during training or are time-intensive when
generating semantic maps. This paper presents Open-Fusion, a groundbreaking
approach for real-time open-vocabulary 3D mapping and queryable scene
representation using RGB-D data. Open-Fusion harnesses the power of a
pre-trained vision-language foundation model (VLFM) for open-set semantic
comprehension and employs the Truncated Signed Distance Function (TSDF) for
swift 3D scene reconstruction. By leveraging the VLFM, we extract region-based
embeddings and their associated confidence maps. These are then integrated with
3D knowledge from TSDF using an enhanced Hungarian-based feature-matching
mechanism. Notably, Open-Fusion delivers outstanding annotation-free 3D
segmentation for open-vocabulary without necessitating additional 3D training.
Benchmark tests on the ScanNet dataset against leading zero-shot methods
highlight Open-Fusion's superiority. Furthermore, it seamlessly combines the
strengths of region-based VLFM and TSDF, facilitating real-time 3D scene
comprehension that includes object concepts and open-world semantics. We
encourage the readers to view the demos on our project page:
https://uark-aicv.github.io/OpenFusion
- Abstract(参考訳): 正確な3d環境マッピングはロボット工学において重要である。
既存のメソッドはトレーニング中に事前定義された概念に依存することが多いし、セマンティックマップを生成するのに時間を要する。
本稿では,RGB-Dデータを用いたリアルタイムオープンな3Dマッピングとクエリ可能なシーン表現のための基盤的アプローチであるOpen-Fusionを提案する。
Open-Fusionは、オープンセット意味理解のための事前学習された視覚言語基盤モデル(VLFM)のパワーを活用し、3Dシーンの迅速な再構築にTSDF(Trncated Signed Distance Function)を使用している。
VLFMを利用して、領域ベースの埋め込みとその関連する信頼マップを抽出する。
その後、ハンガリーの強化された特徴マッチング機構を使用して、TSDFの3D知識と統合される。
特にopen-fusionは、追加の3dトレーニングを必要とせずに、open-vocabularyのアノテーションフリーな3dセグメンテーションを提供する。
主要なゼロショットメソッドに対するScanNetデータセットのベンチマークテストは、Open-Fusionの優位性を強調している。
さらに、地域ベースのvlfmとtsdfの強みをシームレスに組み合わせ、オブジェクト概念とオープンワールドセマンティクスを含むリアルタイム3dシーン理解を促進する。
私たちは、プロジェクトのページでデモを見るよう読者に勧めています。
関連論文リスト
- Open3DSG: Open-Vocabulary 3D Scene Graphs from Point Clouds with
Queryable Objects and Open-Set Relationships [16.643252717745348]
ラベル付きシーングラフデータを必要としないオープンな世界で3次元シーングラフを学習するための代替手法であるOpen3DSGを提案する。
我々は,3次元シーングラフ予測バックボーンの機能を,強力なオープンワールド2Dビジョン言語基盤モデルの特徴空間と組み合わせた。
論文 参考訳(メタデータ) (2024-02-19T16:15:03Z) - UniM-OV3D: Uni-Modality Open-Vocabulary 3D Scene Understanding with
Fine-Grained Feature Representation [48.56186991417813]
我々は,UniM-OV3Dという,マルチモーダルなオープン・ボキャブラリ・シーン理解ネットワークを提案する。
ポイントクラウドのグローバル機能とローカル機能をよりよく統合するために、階層的なポイントクラウド機能抽出モジュールを設計する。
キャプションからの粗い点列表現の学習を容易にするために,階層型3Dキャプションペアの利用を提案する。
論文 参考訳(メタデータ) (2024-01-21T04:13:58Z) - 3DStyle-Diffusion: Pursuing Fine-grained Text-driven 3D Stylization with
2D Diffusion Models [102.75875255071246]
テキスト駆動型スタイリングによる3Dコンテンツ作成は、マルチメディアとグラフィックコミュニティにとって根本的な課題となっている。
2次元拡散モデルから制御可能な外観と幾何学的ガイダンスを付加した3次元メッシュのきめ細かいスタイリングをトリガーする新しい3DStyle-Diffusionモデルを提案する。
論文 参考訳(メタデータ) (2023-11-09T15:51:27Z) - ConceptFusion: Open-set Multimodal 3D Mapping [91.23054486724402]
ConceptFusionは基本的にオープンセットのシーン表現である。
これは、閉じた概念や本質的にはマルチモーダル以上の推論を可能にする。
実世界の多くのデータセット上でConceptFusionを評価する。
論文 参考訳(メタデータ) (2023-02-14T18:40:26Z) - Diffusion-SDF: Text-to-Shape via Voxelized Diffusion [90.85011923436593]
本研究では,テキスト・ツー・シェイプ合成の課題に対して,Diffusion-SDFと呼ばれる新しい3次元モデリングフレームワークを提案する。
本研究では,Diffusion-SDFが与えられたテキスト記述によく適合する高品質な3次元形状と,より多様化した3次元形状の両方を生成することを示す。
論文 参考訳(メタデータ) (2022-12-06T19:46:47Z) - OpenScene: 3D Scene Understanding with Open Vocabularies [73.1411930820683]
従来の3Dシーン理解アプローチは、単一のタスクのためにモデルをトレーニングするためのラベル付き3Dデータセットに依存している。
私たちは,CLIP機能空間にテキストと画像ピクセルを埋め込んだ3次元シーンポイントの高密度な特徴をモデルが予測する代替手法OpenSceneを提案する。
このゼロショットアプローチは、タスク非依存のトレーニングとオープン語彙クエリを可能にする。
論文 参考訳(メタデータ) (2022-11-28T18:58:36Z) - DH3D: Deep Hierarchical 3D Descriptors for Robust Large-Scale 6DoF
Relocalization [56.15308829924527]
生の3D点から直接3次元特徴の検出と記述を共同で学習するシームズネットワークを提案する。
3次元キーポイントを検出するために,局所的な記述子の識別性を教師なしで予測する。
各種ベンチマーク実験により,本手法はグローバルポイントクラウド検索とローカルポイントクラウド登録の両面で競合する結果が得られた。
論文 参考訳(メタデータ) (2020-07-17T20:21:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。