論文の概要: RAZER: Robust Accelerated Zero-Shot 3D Open-Vocabulary Panoptic Reconstruction with Spatio-Temporal Aggregation
- arxiv url: http://arxiv.org/abs/2505.15373v1
- Date: Wed, 21 May 2025 11:07:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.519294
- Title: RAZER: Robust Accelerated Zero-Shot 3D Open-Vocabulary Panoptic Reconstruction with Spatio-Temporal Aggregation
- Title(参考訳): RAZER : 時空間アグリゲーションによるゼロショット3次元オープンボキャブラリ画像再構成
- Authors: Naman Patel, Prashanth Krishnamurthy, Farshad Khorrami,
- Abstract要約: 我々は,GPUで加速した幾何再構成をオープン語彙の視覚言語モデルとシームレスに統合するゼロショットフレームワークを開発した。
トレーニングフリーシステムは、インクリメンタル処理と統合幾何系列更新により、優れた性能を実現する。
- 参考スコア(独自算出の注目度): 10.067978300536486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mapping and understanding complex 3D environments is fundamental to how autonomous systems perceive and interact with the physical world, requiring both precise geometric reconstruction and rich semantic comprehension. While existing 3D semantic mapping systems excel at reconstructing and identifying predefined object instances, they lack the flexibility to efficiently build semantic maps with open-vocabulary during online operation. Although recent vision-language models have enabled open-vocabulary object recognition in 2D images, they haven't yet bridged the gap to 3D spatial understanding. The critical challenge lies in developing a training-free unified system that can simultaneously construct accurate 3D maps while maintaining semantic consistency and supporting natural language interactions in real time. In this paper, we develop a zero-shot framework that seamlessly integrates GPU-accelerated geometric reconstruction with open-vocabulary vision-language models through online instance-level semantic embedding fusion, guided by hierarchical object association with spatial indexing. Our training-free system achieves superior performance through incremental processing and unified geometric-semantic updates, while robustly handling 2D segmentation inconsistencies. The proposed general-purpose 3D scene understanding framework can be used for various tasks including zero-shot 3D instance retrieval, segmentation, and object detection to reason about previously unseen objects and interpret natural language queries. The project page is available at https://razer-3d.github.io.
- Abstract(参考訳): 複雑な3D環境のマッピングと理解は、自律システムが物理的世界に対する知覚と相互作用の仕方の基本であり、正確な幾何学的再構築とリッチな意味理解の両方を必要とする。
既存の3Dセマンティックマッピングシステムは、事前に定義されたオブジェクトインスタンスの再構築と識別に優れていますが、オンライン操作中にオープン語彙でセマンティックマップを効率的に構築する柔軟性に欠けています。
最近の視覚言語モデルでは2次元画像のオープン語彙オブジェクト認識が可能になっているが、3次元空間理解のギャップを埋めるには至っていない。
重要な課題は、意味的一貫性を維持し、自然言語の対話をリアルタイムでサポートしながら、正確な3Dマップを同時に構築できる訓練不要の統一システムを開発することである。
本稿では,階層的オブジェクトと空間的インデックス付けを関連づけたオンラインインスタンスレベルのセマンティック埋め込み融合により,GPUアクセラレーションによる幾何再構成をオープン語彙の視覚言語モデルとシームレスに統合するゼロショットフレームワークを開発する。
本システムでは,2次元分割の不整合を頑健に処理しながら,インクリメンタル処理と統合幾何的更新により優れた性能を実現する。
提案する汎用3Dシーン理解フレームワークは、ゼロショット3Dインスタンス検索、セグメンテーション、オブジェクト検出など様々なタスクに利用でき、未確認のオブジェクトを推論し、自然言語クエリを解釈することができる。
プロジェクトのページはhttps://razer-3d.github.io.comで公開されている。
関連論文リスト
- Training-Free Hierarchical Scene Understanding for Gaussian Splatting with Superpoint Graphs [16.153129392697885]
ガウス原始体から直接スーパーポイントグラフを構築する訓練自由フレームワークを導入する。
スーパーポイントグラフはシーンを空間的にコンパクトでセマンティックなコヒーレントな領域に分割し、ビュー一貫性の3Dエンティティを形成する。
提案手法は,30時間以上のセグメンテーションを高速化し,最先端のオープン語彙セグメンテーション性能を実現する。
論文 参考訳(メタデータ) (2025-04-17T17:56:07Z) - GREAT: Geometry-Intention Collaborative Inference for Open-Vocabulary 3D Object Affordance Grounding [53.42728468191711]
Open-Vocabulary 3D object affordance groundingは、任意の命令で3Dオブジェクト上のアクション可能性の領域を予測することを目的としている。
GREAT (GeometRy-intEntion collAboraTive Inference) を提案する。
論文 参考訳(メタデータ) (2024-11-29T11:23:15Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。