論文の概要: Ov3R: Open-Vocabulary Semantic 3D Reconstruction from RGB Videos
- arxiv url: http://arxiv.org/abs/2507.22052v1
- Date: Tue, 29 Jul 2025 17:55:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.845376
- Title: Ov3R: Open-Vocabulary Semantic 3D Reconstruction from RGB Videos
- Title(参考訳): Ov3R:RGBビデオによるオープンボキャブラリのセマンティック3D再構成
- Authors: Ziren Gong, Xiaohan Li, Fabio Tosi, Jiawei Han, Stefano Mattoccia, Jianfei Cai, Matteo Poggi,
- Abstract要約: Ov3Rは、RGBビデオストリームからのセマンティック3D再構成のためのフレームワークである。
CLIP3Rは、オブジェクトレベルのセマンティクスを埋め込みながら、重複するクリップから高密度なポイントマップを予測する。
2D-3D OVSは、空間的、幾何学的、意味的な手がかりを統合した融合記述子を学習することで、2D機能を3Dに持ち上げる。
- 参考スコア(独自算出の注目度): 69.21508595833623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Ov3R, a novel framework for open-vocabulary semantic 3D reconstruction from RGB video streams, designed to advance Spatial AI. The system features two key components: CLIP3R, a CLIP-informed 3D reconstruction module that predicts dense point maps from overlapping clips while embedding object-level semantics; and 2D-3D OVS, a 2D-3D open-vocabulary semantic module that lifts 2D features into 3D by learning fused descriptors integrating spatial, geometric, and semantic cues. Unlike prior methods, Ov3R incorporates CLIP semantics directly into the reconstruction process, enabling globally consistent geometry and fine-grained semantic alignment. Our framework achieves state-of-the-art performance in both dense 3D reconstruction and open-vocabulary 3D segmentation, marking a step forward toward real-time, semantics-aware Spatial AI.
- Abstract(参考訳): 本稿では,RGBビデオストリームからのオープン語彙セマンティック3D再構築のための新しいフレームワークであるOv3Rについて述べる。
CLIP3Rは、オブジェクトレベルのセマンティクスを埋め込んだまま、重複するクリップから高密度点マップを予測するCLIP3Rと、2D-3D OVSという2D-3Dのオープン語彙セマンティクスモジュールで、2Dの機能を3Dに持ち上げる。
従来の方法とは異なり、Ov3RはCLIPセマンティクスを直接再構成プロセスに組み込んでおり、グローバルに一貫した幾何学と微細なセマンティクスアライメントを可能にする。
我々のフレームワークは、密集した3D再構成とオープンな3Dセグメンテーションの両方において最先端のパフォーマンスを実現し、リアルタイムなセマンティクスを意識した空間AIへの一歩を踏み出した。
関連論文リスト
- RAZER: Robust Accelerated Zero-Shot 3D Open-Vocabulary Panoptic Reconstruction with Spatio-Temporal Aggregation [10.067978300536486]
我々は,GPUで加速した幾何再構成をオープン語彙の視覚言語モデルとシームレスに統合するゼロショットフレームワークを開発した。
トレーニングフリーシステムは、インクリメンタル処理と統合幾何系列更新により、優れた性能を実現する。
論文 参考訳(メタデータ) (2025-05-21T11:07:25Z) - PanoSLAM: Panoptic 3D Scene Reconstruction via Gaussian SLAM [105.01907579424362]
PanoSLAMは、幾何学的再構成、3Dセマンティックセマンティックセマンティクス、3Dインスタンスセマンティクスを統合フレームワークに統合する最初のSLAMシステムである。
初めて、RGB-Dビデオから直接、オープンワールド環境のパノプティカル3D再構成を実現する。
論文 参考訳(メタデータ) (2024-12-31T08:58:10Z) - Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
FreeGSは複雑なデータ前処理のワークロードを避けながら、最先端のメソッドと互換性がある。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z) - ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - 3D Shape Reconstruction from 2D Images with Disentangled Attribute Flow [61.62796058294777]
単一の2D画像から3D形状を再構築することは難しい作業だ。
従来の手法の多くは3次元再構成作業における意味的属性の抽出に苦慮している。
本稿では,3DAttriFlowを用いて,入力画像の異なる意味レベルから意味的属性を抽出する手法を提案する。
論文 参考訳(メタデータ) (2022-03-29T02:03:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。