Fugu-MT 論文翻訳(概要): Open-Fusion: Real-time Open-Vocabulary 3D Mapping and Queryable Scene Representation

論文の概要: Open-Fusion: Real-time Open-Vocabulary 3D Mapping and Queryable Scene Representation

arxiv url: http://arxiv.org/abs/2310.03923v1
Date: Thu, 5 Oct 2023 21:57:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-10 06:12:57.538137
Title: Open-Fusion: Real-time Open-Vocabulary 3D Mapping and Queryable Scene Representation
Title（参考訳）: OpenFusion: リアルタイムオープンな3Dマッピングとクエリ可能なシーン表現
Authors: Kashu Yamazaki, Taisei Hanyu, Khoa Vo, Thang Pham, Minh Tran, Gianfranco Doretto, Anh Nguyen, Ngan Le
Abstract要約: Open-Fusionはリアルタイムオープンな3Dマッピングとクエリ可能なシーン表現のための画期的なアプローチである。オープンセットのセマンティック理解のために、事前訓練された視覚言語基盤モデル(VLFM)の力を利用する。追加の3Dトレーニングを必要とせずに、オープン語彙に優れたアノテーションのない3Dセグメンテーションを提供する。
参考スコア（独自算出の注目度）: 13.770613689032503
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Precise 3D environmental mapping is pivotal in robotics. Existing methods often rely on predefined concepts during training or are time-intensive when generating semantic maps. This paper presents Open-Fusion, a groundbreaking approach for real-time open-vocabulary 3D mapping and queryable scene representation using RGB-D data. Open-Fusion harnesses the power of a pre-trained vision-language foundation model (VLFM) for open-set semantic comprehension and employs the Truncated Signed Distance Function (TSDF) for swift 3D scene reconstruction. By leveraging the VLFM, we extract region-based embeddings and their associated confidence maps. These are then integrated with 3D knowledge from TSDF using an enhanced Hungarian-based feature-matching mechanism. Notably, Open-Fusion delivers outstanding annotation-free 3D segmentation for open-vocabulary without necessitating additional 3D training. Benchmark tests on the ScanNet dataset against leading zero-shot methods highlight Open-Fusion's superiority. Furthermore, it seamlessly combines the strengths of region-based VLFM and TSDF, facilitating real-time 3D scene comprehension that includes object concepts and open-world semantics. We encourage the readers to view the demos on our project page: https://uark-aicv.github.io/OpenFusion
Abstract（参考訳）: 正確な3d環境マッピングはロボット工学において重要である。既存のメソッドはトレーニング中に事前定義された概念に依存することが多いし、セマンティックマップを生成するのに時間を要する。本稿では,RGB-Dデータを用いたリアルタイムオープンな3Dマッピングとクエリ可能なシーン表現のための基盤的アプローチであるOpen-Fusionを提案する。 Open-Fusionは、オープンセット意味理解のための事前学習された視覚言語基盤モデル(VLFM)のパワーを活用し、3Dシーンの迅速な再構築にTSDF(Trncated Signed Distance Function)を使用している。 VLFMを利用して、領域ベースの埋め込みとその関連する信頼マップを抽出する。その後、ハンガリーの強化された特徴マッチング機構を使用して、TSDFの3D知識と統合される。特にopen-fusionは、追加の3dトレーニングを必要とせずに、open-vocabularyのアノテーションフリーな3dセグメンテーションを提供する。主要なゼロショットメソッドに対するScanNetデータセットのベンチマークテストは、Open-Fusionの優位性を強調している。さらに、地域ベースのvlfmとtsdfの強みをシームレスに組み合わせ、オブジェクト概念とオープンワールドセマンティクスを含むリアルタイム3dシーン理解を促進する。私たちは、プロジェクトのページでデモを見るよう読者に勧めています。

関連論文リスト

OpenGS-Fusion: Open-Vocabulary Dense Mapping with Hybrid 3D Gaussian Splatting for Refined Object-Level Understanding [17.524454394142477]
提案するOpenGS-Fusionは、セマンティックモデリングを改善し、オブジェクトレベルの理解を洗練させる革新的なオープン語彙密集型マッピングフレームワークである。また,MLLM-Assisted Adaptive Thresholding という新しい多モーダル言語誘導手法を導入し,類似度閾値を適応的に調整することで3次元オブジェクトのセグメンテーションを改良する。提案手法は,3次元オブジェクト理解とシーン再構築の品質において,既存の手法よりも優れており,言語誘導シーンインタラクションにおけるその効果を示している。
論文参考訳（メタデータ） (2025-08-02T02:22:36Z)
OpenFusion++: An Open-vocabulary Real-time Scene Understanding System [4.470499157873342]
TSDFベースのリアルタイム3次元意味幾何学再構築システムであるOpenFusion++を提案する。提案手法では,基本モデルから信頼マップを抽出し,インスタンス領域に基づいた適応キャッシュを用いてグローバルなセマンティックラベルを動的に更新し,デュアルパス符号化フレームワークを用いて3Dポイントクラウドを改良する。 ICL、Replica、ScanNet、ScanNet++データセットの実験は、OpenFusion++がセマンティック精度とクエリ応答性の両方でベースラインを大幅に上回っていることを示している。
論文参考訳（メタデータ） (2025-04-27T14:46:43Z)
Locate 3D: Real-World Object Localization via Self-Supervised Learning in 3D [68.23391872643268]
LOCATE 3Dは「ソファーとランプの間の小さなコーヒーテーブル」のような表現から3Dシーンの物体をローカライズするモデルであるセンサー・オブザーバ・ストリーム(RGB-Dフレームの配置)を直接操作し、ロボットやARデバイスへの現実世界の展開を可能にする。
論文参考訳（メタデータ） (2025-04-19T02:51:24Z)
VLM-Grounder: A VLM Agent for Zero-Shot 3D Visual Grounding [57.04804711488706]
3Dビジュアルグラウンドティングはロボットにとって不可欠であり、自然言語と3Dシーン理解を統合する必要がある。 VLM-Grounderは視覚言語モデル(VLM)を用いて2次元画像のみに基づくゼロショット3次元視覚グラウンドティングを行う新しいフレームワークである。
論文参考訳（メタデータ） (2024-10-17T17:59:55Z)
OpenSU3D: Open World 3D Scene Understanding using Foundation Models [2.1262749936758216]
オープンセット, インスタンスレベルの3次元シーン表現を構築するための, 新規でスケーラブルなアプローチを提案する。既存の方法は、事前に構築された3Dシーンと、ポイント単位の機能ベクトル学習によるスケーラビリティの問題を必要とする。ゼロショット一般化機能を示すScanNetとReplicaのデータセットから,複数のシーンに対する提案手法の評価を行った。
論文参考訳（メタデータ） (2024-07-19T13:01:12Z)
OpenGaussian: Towards Point-Level 3D Gaussian-based Open Vocabulary Understanding [54.981605111365056]
本稿では,3次元点レベルの開語彙理解が可能な3次元ガウススティング(3DGS)に基づくOpenGaussianを紹介する。我々の主な動機は、既存の3DGSベースのオープン語彙法が主に2Dピクセルレベルの解析に焦点を当てていることに起因している。
論文参考訳（メタデータ） (2024-06-04T07:42:33Z)
Open-Vocabulary SAM3D: Towards Training-free Open-Vocabulary 3D Scene Understanding [41.96929575241655]
OV-SAM3Dはオープンな3Dシーンを理解するための訓練不要な手法である。このフレームワークは、シーンの事前の知識を必要とせずに、任意の3Dシーンの理解タスクを実行するように設計されている。 ScanNet200 と nuScenes のデータセットに対する実証的な評価は、我々のアプローチが未知のオープンワールド環境における既存のオープンボキャブラリ手法を上回ることを示している。
論文参考訳（メタデータ） (2024-05-24T14:07:57Z)
OpenNeRF: Open Set 3D Neural Scene Segmentation with Pixel-Wise Features and Rendered Novel Views [90.71215823587875]
提案するOpenNeRFは,ポーズ画像上で自然に動作し,NeRF内のVLM機能を直接符号化する。我々の研究は、ピクセルワイドVLM機能を用いることで、DINO正規化を必要とせずに、全体的なアーキテクチャがより複雑になることを示している。 Replicaデータセット上の3Dポイントクラウドセグメンテーションでは、OpenNeRFはLERFやOpenSceneといった最近のオープン語彙法を少なくとも4.9 mIoUで上回っている。
論文参考訳（メタデータ） (2024-04-04T17:59:08Z)
Open3DSG: Open-Vocabulary 3D Scene Graphs from Point Clouds with Queryable Objects and Open-Set Relationships [15.513180297629546]
ラベル付きシーングラフデータを必要としないオープンな世界で3次元シーングラフを学習するための代替手法であるOpen3DSGを提案する。我々は,3次元シーングラフ予測バックボーンの機能を,強力なオープンワールド2Dビジョン言語基盤モデルの特徴空間と組み合わせた。
論文参考訳（メタデータ） (2024-02-19T16:15:03Z)
ConceptFusion: Open-set Multimodal 3D Mapping [91.23054486724402]
ConceptFusionは基本的にオープンセットのシーン表現である。これは、閉じた概念や本質的にはマルチモーダル以上の推論を可能にする。実世界の多くのデータセット上でConceptFusionを評価する。
論文参考訳（メタデータ） (2023-02-14T18:40:26Z)
Diffusion-SDF: Text-to-Shape via Voxelized Diffusion [90.85011923436593]
本研究では,テキスト・ツー・シェイプ合成の課題に対して,Diffusion-SDFと呼ばれる新しい3次元モデリングフレームワークを提案する。本研究では,Diffusion-SDFが与えられたテキスト記述によく適合する高品質な3次元形状と,より多様化した3次元形状の両方を生成することを示す。
論文参考訳（メタデータ） (2022-12-06T19:46:47Z)
OpenScene: 3D Scene Understanding with Open Vocabularies [73.1411930820683]
従来の3Dシーン理解アプローチは、単一のタスクのためにモデルをトレーニングするためのラベル付き3Dデータセットに依存している。私たちは,CLIP機能空間にテキストと画像ピクセルを埋め込んだ3次元シーンポイントの高密度な特徴をモデルが予測する代替手法OpenSceneを提案する。このゼロショットアプローチは、タスク非依存のトレーニングとオープン語彙クエリを可能にする。
論文参考訳（メタデータ） (2022-11-28T18:58:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。