論文の概要: OVI-MAP:Open-Vocabulary Instance-Semantic Mapping
- arxiv url: http://arxiv.org/abs/2603.26541v1
- Date: Fri, 27 Mar 2026 15:50:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.576555
- Title: OVI-MAP:Open-Vocabulary Instance-Semantic Mapping
- Title(参考訳): OVI-MAP:Open-Vocabulary Instance-Semantic Mapping
- Authors: Zilong Deng, Federico Tombari, Marc Pollefeys, Johanna Wald, Daniel Barath,
- Abstract要約: OVI-MAPは、RGB-D入力から漸進的に構築される、クラスに依存しない3Dインスタンスマップである。
意味的特徴は、視覚言語モデルを用いて、選択された少数のビューからのみ抽出される。
我々のシステムはリアルタイムに動作し、標準ベンチマークで最先端のオープン語彙マッピングのベースラインを上回ります。
- 参考スコア(独自算出の注目度): 108.66131262110095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Incremental open-vocabulary 3D instance-semantic mapping is essential for autonomous agents operating in complex everyday environments. However, it remains challenging due to the need for robust instance segmentation, real-time processing, and flexible open-set reasoning. Existing methods often rely on the closed-set assumption or dense per-pixel language fusion, which limits scalability and temporal consistency. We introduce OVI-MAP that decouples instance reconstruction from semantic inference. We propose to build a class-agnostic 3D instance map that is incrementally constructed from RGB-D input, while semantic features are extracted only from a small set of automatically selected views using vision-language models. This design enables stable instance tracking and zero-shot semantic labeling throughout online exploration. Our system operates in real time and outperforms state-of-the-art open-vocabulary mapping baselines on standard benchmarks.
- Abstract(参考訳): 複雑な日常環境で動作する自律エージェントには,オープンな3次元インスタンスセマンティックマッピングが不可欠である。
しかし、堅牢なインスタンスセグメンテーション、リアルタイム処理、フレキシブルなオープンセット推論を必要とするため、依然として難しい。
既存の手法は、しばしばクローズドセットの仮定や、拡張性と時間的一貫性を制限するピクセル単位の言語融合に依存している。
セマンティック推論からインスタンス再構成を分離するOVI-MAPを導入する。
本稿では,RGB-D入力からインクリメンタルに構築されるクラス非依存の3Dインスタンスマップを構築することを提案する。
この設計により、オンライン探索を通じて安定したインスタンス追跡とゼロショットセマンティックラベリングが可能になる。
我々のシステムはリアルタイムに動作し、標準ベンチマークで最先端のオープン語彙マッピングのベースラインを上回ります。
関連論文リスト
- dinov3.seg: Open-Vocabulary Semantic Segmentation with DINOv3 [36.6036728217708]
Open-Vocabulary Semantics (OVSS)は、テキスト定義カテゴリのオープンセットからピクセルレベルのラベルを割り当て、推論時に見えないクラスに信頼性の高い一般化を要求する。
我々は dinov3.seg を導入し、 dinov3.txt を OVSS 専用のフレームワークに拡張した。
まず、このバックボーンに合わせたタスク固有のアーキテクチャを設計し、従来のオープン語彙セグメンテーション作業から確立した設計原則を体系的に適用する。
第2に、VTベースのエンコーダのグローバルトークンとローカルパッチレベルのビジュアル特徴の両方に整合したテキスト埋め込みを共同で活用する。
論文 参考訳(メタデータ) (2026-03-19T23:57:28Z) - OpenFusion++: An Open-vocabulary Real-time Scene Understanding System [4.470499157873342]
TSDFベースのリアルタイム3次元意味幾何学再構築システムであるOpenFusion++を提案する。
提案手法では,基本モデルから信頼マップを抽出し,インスタンス領域に基づいた適応キャッシュを用いてグローバルなセマンティックラベルを動的に更新し,デュアルパス符号化フレームワークを用いて3Dポイントクラウドを改良する。
ICL、Replica、ScanNet、ScanNet++データセットの実験は、OpenFusion++がセマンティック精度とクエリ応答性の両方でベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2025-04-27T14:46:43Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - FM-Fusion: Instance-aware Semantic Mapping Boosted by Vision-Language Foundation Models [24.77953131753715]
視覚言語基礎モデルの開発は、データ分散における強力なゼロショット転送可能性を示している。
本稿では,開集合ラベル測定から近接集合意味クラスを予測するための確率的ラベル融合法を提案する。
我々は,すべてのモジュールを統合意味マッピングシステムに統合し,RGB-D入力のシーケンスを読み取って,インスタンス認識意味マップを漸進的に再構築する。
論文 参考訳(メタデータ) (2024-02-07T03:19:02Z) - LISNeRF Mapping: LiDAR-based Implicit Mapping via Semantic Neural Fields for Large-Scale 3D Scenes [2.822816116516042]
大規模セマンティックマッピングは、屋外の自律エージェントが計画やナビゲーションといった高度なタスクを遂行するために不可欠である。
本稿では,提案するLiDAR測度のみでの暗黙的表現による大規模3次元意味再構築手法を提案する。
論文 参考訳(メタデータ) (2023-11-04T03:55:38Z) - Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos [63.94040814459116]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。
融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。
我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文 参考訳(メタデータ) (2023-08-19T09:12:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。