論文の概要: FUS3DMaps: Scalable and Accurate Open-Vocabulary Semantic Mapping by 3D Fusion of Voxel- and Instance-Level Layers
- arxiv url: http://arxiv.org/abs/2605.03669v1
- Date: Tue, 05 May 2026 12:08:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.921669
- Title: FUS3DMaps: Scalable and Accurate Open-Vocabulary Semantic Mapping by 3D Fusion of Voxel- and Instance-Level Layers
- Title(参考訳): FUS3DMaps: Voxel- and Instance-Level Layersの3次元融合による拡張性と精度の高いオープンボキャブラリセマンティックマッピング
- Authors: Timon Homberger, Finn Lukas Busch, Jesús Gerardo Ortega Peimbert, Quantao Yang, Olov Andersson,
- Abstract要約: FUS3DMapsは、共有ボクセルマップ内の密度層とインスタンスレベルのオープン語彙層の両方を保持するオンラインの2層セマンティックマッピング手法である。
提案したセマンティック・クロス層融合手法は, インスタンスレベルと高密度層の両方の品質を向上させる。
確立された3次元セマンティックセグメンテーションベンチマークおよび大規模シーンの選択実験により、FUS3DMapsは複数階のビルディングスケールで正確なオープン語彙セマンティックマッピングを実現することが示された。
- 参考スコア(独自算出の注目度): 2.610405478993863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary semantic mapping enables robots to spatially ground previously unseen concepts without requiring predefined class sets. Current training-free methods commonly rely on multi-view fusion of semantic embeddings into a 3D map, either at the instance-level via segmenting views and encoding image crops of segments, or by projecting image patch embeddings directly into a dense semantic map. The latter approach sidesteps segmentation and 2D-to-3D instance association by operating on full uncropped image frames, but existing methods remain limited in scalability. We present FUS3DMaps, an online dual-layer semantic mapping method that jointly maintains both dense and instance-level open-vocabulary layers within a shared voxel map. This design enables further voxel-level semantic fusion of the layer embeddings, combining the complementary strengths of both semantic mapping approaches. We find that our proposed semantic cross-layer fusion approach improves the quality of both the instance-level and dense layers, while also enabling a scalable and highly accurate instance-level map where the dense layer and cross-layer fusion are restricted to a spatial sliding window. Experiments on established 3D semantic segmentation benchmarks as well as a selection of large-scale scenes show that FUS3DMaps achieves accurate open-vocabulary semantic mapping at multi-story building scales. Additional material and code will be made available: https://githanonymous.github.io/FUS3DMaps/.
- Abstract(参考訳): オープン・ボキャブラリ・セマンティック・マッピングにより、事前に定義されたクラスセットを必要とせずに、ロボットが空間的に未確認の概念をグラウンド化することができる。
現在のトレーニングフリーな手法は、一般的に3Dマップへのセマンティック埋め込みのマルチビュー融合に依存しており、セグメンテーションビューやセグメントのイメージキュリーのエンコード、あるいはイメージパッチの埋め込みを直接密なセマンティックマップに投影することでインスタンスレベルでの3Dマップへの統合に依存している。
後者のアプローチは、完全に切り離された画像フレームを操作することによって、セグメンテーションと2D-to-3Dインスタンスアソシエーションをサイドステップするが、既存の手法は拡張性に制限がある。
FUS3DMapsは、共有ボクセルマップ内において、密度層とインスタンスレベルのオープン語彙層の両方を共同で維持するオンライン2層セマンティックマッピング手法である。
この設計により、層埋め込みのボクセルレベルのセマンティック融合が可能になり、両方のセマンティックマッピングアプローチの相補的な強みを組み合わせることができる。
提案したセマンティック・クロス・フュージョン・アプローチは,高密度・高密度・高密度の両層の品質を向上させるとともに,高密度・高高精度のインスタンス・レベル・マップを空間的スライディング・ウインドウに制限することを可能にする。
確立された3次元セマンティックセグメンテーションベンチマークおよび大規模シーンの選択実験により、FUS3DMapsは複数階のビルディングスケールで正確なオープン語彙セマンティックマッピングを実現することが示された。
追加の資料とコードが提供される。 https://githanonymous.github.io/FUS3DMaps/。
関連論文リスト
- OVI-MAP:Open-Vocabulary Instance-Semantic Mapping [108.66131262110095]
OVI-MAPは、RGB-D入力から漸進的に構築される、クラスに依存しない3Dインスタンスマップである。
意味的特徴は、視覚言語モデルを用いて、選択された少数のビューからのみ抽出される。
我々のシステムはリアルタイムに動作し、標準ベンチマークで最先端のオープン語彙マッピングのベースラインを上回ります。
論文 参考訳(メタデータ) (2026-03-27T15:50:59Z) - Hierarchical Collaborative Fusion for 3D Instance-aware Referring Expression Segmentation [91.2768117730855]
一般化された3D参照式(3D-GRES)は、記述が複数またはゼロのターゲットと一致する場合でも、自然言語に基づいて3Dシーン内のオブジェクトをローカライズする。
既存の方法はスパース・ポイント・クラウドにのみ依存しており、きめ細かい説明のためのリッチ・ビジュアル・セマンティクスが欠如している。
HCF-RESは2つの重要なイノベーションを持つマルチモーダルフレームワークである。
論文 参考訳(メタデータ) (2026-03-06T13:09:29Z) - PGOV3D: Open-Vocabulary 3D Semantic Segmentation with Partial-to-Global Curriculum [20.206273757144547]
PGOV3Dはオープンな3Dセマンティックセマンティックセグメンテーションを改善するための部分言語カリキュラムを導入した新しいフレームワークである。
我々は、密接な意味情報を提供する部分的なシーンでモデルを事前訓練するが、比較的単純な幾何学である。
第2段階では、よりスペーサーで構造的に複雑である、完全なシーンレベルの点雲上でモデルを微調整する。
論文 参考訳(メタデータ) (2025-06-30T08:13:07Z) - LISNeRF Mapping: LiDAR-based Implicit Mapping via Semantic Neural Fields for Large-Scale 3D Scenes [2.822816116516042]
大規模セマンティックマッピングは、屋外の自律エージェントが計画やナビゲーションといった高度なタスクを遂行するために不可欠である。
本稿では,提案するLiDAR測度のみでの暗黙的表現による大規模3次元意味再構築手法を提案する。
論文 参考訳(メタデータ) (2023-11-04T03:55:38Z) - Neural Semantic Surface Maps [52.61017226479506]
本稿では,2つの属とゼロの形状の地図を自動計算する手法を提案する。
提案手法は,手動のアノテーションや3Dトレーニングデータ要求を排除し,意味的表面-表面マップを生成する。
論文 参考訳(メタデータ) (2023-09-09T16:21:56Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - Multi view stereo with semantic priors [3.756550107432323]
我々は,オープンソースライブラリ OpenMVS に実装されている3次元シーンの標準的な3次元再構成を,セマンティックプリエントを用いて支援することを目的としている。
可能なエラーを除去し、ラベルごとにセグメント化された点雲を選択的に取得するために、余分な意味制約を課す。
論文 参考訳(メタデータ) (2020-07-05T11:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。