論文の概要: DISC: Dense Integrated Semantic Context for Large-Scale Open-Set Semantic Mapping
- arxiv url: http://arxiv.org/abs/2603.03935v1
- Date: Wed, 04 Mar 2026 10:47:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.273562
- Title: DISC: Dense Integrated Semantic Context for Large-Scale Open-Set Semantic Mapping
- Title(参考訳): DISC:大規模オープンセットセマンティックマッピングのためのDense Integrated Semantic Context
- Authors: Felix Igelbrink, Lennart Niecksch, Martin Atzmueller, Joachim Hertzberg,
- Abstract要約: オープンセットセマンティックマッピングは、言語駆動型ロボット知覚を可能にする。
現在のインスタンス中心のアプローチは、コンテキスト分離と計算コストの高い作物ベースの特徴抽出によってボトルネック化されている。
DISC(Dense Integrated Semantic Context)を導入し,新しいシングルパス,距離重み付き抽出機構を特徴とする。
- 参考スコア(独自算出の注目度): 5.520073359436354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-set semantic mapping enables language-driven robotic perception, but current instance-centric approaches are bottlenecked by context-depriving and computationally expensive crop-based feature extraction. To overcome this fundamental limitation, we introduce DISC (Dense Integrated Semantic Context), featuring a novel single-pass, distance-weighted extraction mechanism. By deriving high-fidelity CLIP embeddings directly from the vision transformer's intermediate layers, our approach eliminates the latency and domain-shift artifacts of traditional image cropping, yielding pure, mask-aligned semantic representations. To fully leverage these features in large-scale continuous mapping, DISC is built upon a fully GPU-accelerated architecture that replaces periodic offline processing with precise, on-the-fly voxel-level instance refinement. We evaluate our approach on standard benchmarks (Replica, ScanNet) and a newly generated large-scale-mapping dataset based on Habitat-Matterport 3D (HM3DSEM) to assess scalability across complex scenes in multi-story buildings. Extensive evaluations demonstrate that DISC significantly surpasses current state-of-the-art zero-shot methods in both semantic accuracy and query retrieval, providing a robust, real-time capable framework for robotic deployment. The full source code, data generation and evaluation pipelines will be made available at https://github.com/DFKI-NI/DISC.
- Abstract(参考訳): オープンセットのセマンティックマッピングは、言語駆動型ロボット認識を可能にするが、現在のインスタンス中心のアプローチは、コンテキスト欠落と計算コストの高い作物ベースの特徴抽出によってボトルネックとなる。
この基本的な制限を克服するために,新しい単一パス距離重み付き抽出機構を備えたdisC(Dense Integrated Semantic Context)を導入する。
視覚変換器の中間層から直接高忠実度CLIP埋め込みを導出することにより、従来の画像トリミングの遅延やドメインシフトアーティファクトを排除し、純粋なマスク整合セマンティック表現を生成する。
大規模な継続的マッピングでこれらの機能をフル活用するために、disCは、周期的なオフライン処理を正確にオンザフライのボクセルレベルのインスタンスリファインメントに置き換える、完全にGPUアクセラレーションされたアーキテクチャの上に構築されている。
提案手法は,Habitat-Matterport 3D (HM3DSEM) をベースとした大規模マスキングデータセットと標準ベンチマーク(Replica, ScanNet)を用いて,複合建物における複雑なシーン間のスケーラビリティを評価するものである。
大規模な評価では、DECはセマンティック精度とクエリ検索の両方において最先端のゼロショット手法を大幅に上回り、ロボット展開のための堅牢でリアルタイムなフレームワークを提供する。
完全なソースコード、データ生成、評価パイプラインはhttps://github.com/DFKI-NI/DISC.orgから入手できる。
関連論文リスト
- DynaPURLS: Dynamic Refinement of Part-aware Representations for Skeleton-based Zero-Shot Action Recognition [51.80782323686666]
textbfDynaPURLSは、堅牢でマルチスケールなビジュアル・セマンティック対応を確立する統一的なフレームワークである。
我々のフレームワークは、グローバルな動きと局所的な身体部分のダイナミクスの両方を含む階層的なテキスト記述を生成するために、大きな言語モデルを活用する。
NTU RGB+D 60/120とPKU-MMDを含む3つの大規模ベンチマークデータセットの実験は、DynaPURLSが先行技術よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-12-12T10:39:10Z) - Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。
Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。
高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文 参考訳(メタデータ) (2025-10-27T03:52:45Z) - Knowledge-Informed Neural Network for Complex-Valued SAR Image Recognition [51.03674130115878]
本稿では,新しい「圧縮集約圧縮」アーキテクチャ上に構築された軽量なフレームワークであるKnowledge-Informed Neural Network(KINN)を紹介する。
KINNはパラメータ効率の認識における最先端を確立し、データスカースとアウト・オブ・ディストリビューションのシナリオにおいて例外的な一般化を提供する。
論文 参考訳(メタデータ) (2025-10-23T07:12:26Z) - Have We Scene It All? Scene Graph-Aware Deep Point Cloud Compression [18.40946383877556]
セマンティックシーングラフに基づくディープ圧縮フレームワークを提案する。
このフレームワークは最先端の圧縮速度を実現し,データサイズを最大98%削減することを示す。
マルチロボットのポーズグラフ最適化やマップマージといった下流アプリケーションをサポートする。
論文 参考訳(メタデータ) (2025-10-09T17:45:09Z) - Cross-Modal Geometric Hierarchy Fusion: An Implicit-Submap Driven Framework for Resilient 3D Place Recognition [9.411542547451193]
本稿では,密度に依存しない幾何学的推論により3次元位置認識を再定義するフレームワークを提案する。
具体的には、元のシーンポイント雲密度の干渉に免疫する弾性点に基づく暗黙の3次元表現を導入する。
これら2種類の情報を活用することで,鳥眼視と3Dセグメントの両視点から幾何学的情報を融合する記述子を得る。
論文 参考訳(メタデータ) (2025-06-17T07:04:07Z) - OpenFusion++: An Open-vocabulary Real-time Scene Understanding System [4.470499157873342]
TSDFベースのリアルタイム3次元意味幾何学再構築システムであるOpenFusion++を提案する。
提案手法では,基本モデルから信頼マップを抽出し,インスタンス領域に基づいた適応キャッシュを用いてグローバルなセマンティックラベルを動的に更新し,デュアルパス符号化フレームワークを用いて3Dポイントクラウドを改良する。
ICL、Replica、ScanNet、ScanNet++データセットの実験は、OpenFusion++がセマンティック精度とクエリ応答性の両方でベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2025-04-27T14:46:43Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Fast Monocular Scene Reconstruction with Global-Sparse Local-Dense Grids [84.90863397388776]
本稿では,スパルス・ボクセル・ブロック・グリッドにおける署名付き距離関数(SDF)を直接使用して,距離のない高速かつ正確なシーン再構成を実現することを提案する。
我々の世界規模で疎密で局所的なデータ構造は、表面の空間的空間性を利用して、キャッシュフレンドリーなクエリを可能にし、マルチモーダルデータへの直接拡張を可能にします。
実験により、我々のアプローチはトレーニングでは10倍、レンダリングでは100倍高速であり、最先端のニューラル暗黙法に匹敵する精度を実現していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T16:50:19Z) - SCFusion: Real-time Incremental Scene Reconstruction with Semantic
Completion [86.77318031029404]
本研究では,シーン再構成とセマンティックシーン補完を段階的かつリアルタイムに共同で行うフレームワークを提案する。
我々のフレームワークは、3Dグローバルモデルでセマンティックコンプリートを正確かつ効率的に融合させるために、占有マップを処理し、ボクセル状態を活用するように設計された新しいニューラルアーキテクチャに依存している。
論文 参考訳(メタデータ) (2020-10-26T15:31:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。