論文の概要: OpenFusion++: An Open-vocabulary Real-time Scene Understanding System
- arxiv url: http://arxiv.org/abs/2504.19266v1
- Date: Sun, 27 Apr 2025 14:46:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.206575
- Title: OpenFusion++: An Open-vocabulary Real-time Scene Understanding System
- Title(参考訳): OpenFusion++: オープン語彙のリアルタイムシーン理解システム
- Authors: Xiaofeng Jin, Matteo Frosi, Matteo Matteucci,
- Abstract要約: TSDFベースのリアルタイム3次元意味幾何学再構築システムであるOpenFusion++を提案する。
提案手法では,基本モデルから信頼マップを抽出し,インスタンス領域に基づいた適応キャッシュを用いてグローバルなセマンティックラベルを動的に更新し,デュアルパス符号化フレームワークを用いて3Dポイントクラウドを改良する。
ICL、Replica、ScanNet、ScanNet++データセットの実験は、OpenFusion++がセマンティック精度とクエリ応答性の両方でベースラインを大幅に上回っていることを示している。
- 参考スコア(独自算出の注目度): 4.470499157873342
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Real-time open-vocabulary scene understanding is essential for efficient 3D perception in applications such as vision-language navigation, embodied intelligence, and augmented reality. However, existing methods suffer from imprecise instance segmentation, static semantic updates, and limited handling of complex queries. To address these issues, we present OpenFusion++, a TSDF-based real-time 3D semantic-geometric reconstruction system. Our approach refines 3D point clouds by fusing confidence maps from foundational models, dynamically updates global semantic labels via an adaptive cache based on instance area, and employs a dual-path encoding framework that integrates object attributes with environmental context for precise query responses. Experiments on the ICL, Replica, ScanNet, and ScanNet++ datasets demonstrate that OpenFusion++ significantly outperforms the baseline in both semantic accuracy and query responsiveness.
- Abstract(参考訳): 視覚言語ナビゲーション、エンボディインテリジェンス、拡張現実などの応用において、リアルタイムなオープン語彙シーン理解は効率的な3D認識に不可欠である。
しかし、既存のメソッドは不正確なインスタンスセグメンテーション、静的なセマンティックアップデート、複雑なクエリの扱いに悩まされている。
これらの問題に対処するために,TSDFベースのリアルタイム3次元意味幾何学再構築システムであるOpenFusion++を提案する。
提案手法は,基本モデルから信頼度マップを抽出し,インスタンス領域に基づく適応キャッシュを通じてグローバルなセマンティックラベルを動的に更新することにより,3次元ポイントクラウドを改良する。
ICL、Replica、ScanNet、ScanNet++データセットの実験は、OpenFusion++がセマンティック精度とクエリ応答性の両方でベースラインを大幅に上回っていることを示している。
関連論文リスト
- CrossOver: 3D Scene Cross-Modal Alignment [78.3057713547313]
CrossOverは、クロスモーダルな3Dシーン理解のための新しいフレームワークである。
モダリティを整列させることにより、シーンの統一的でモダリティに依存しない埋め込み空間を学ぶ。
堅牢なシーン検索とオブジェクトのローカライゼーションをサポートする。
論文 参考訳(メタデータ) (2025-02-20T20:05:30Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - OpenSU3D: Open World 3D Scene Understanding using Foundation Models [2.1262749936758216]
オープンセット, インスタンスレベルの3次元シーン表現を構築するための, 新規でスケーラブルなアプローチを提案する。
既存の方法は、事前に構築された3Dシーンと、ポイント単位の機能ベクトル学習によるスケーラビリティの問題を必要とする。
ゼロショット一般化機能を示すScanNetとReplicaのデータセットから,複数のシーンに対する提案手法の評価を行った。
論文 参考訳(メタデータ) (2024-07-19T13:01:12Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - Open-Fusion: Real-time Open-Vocabulary 3D Mapping and Queryable Scene
Representation [13.770613689032503]
Open-Fusionはリアルタイムオープンな3Dマッピングとクエリ可能なシーン表現のための画期的なアプローチである。
オープンセットのセマンティック理解のために、事前訓練された視覚言語基盤モデル(VLFM)の力を利用する。
追加の3Dトレーニングを必要とせずに、オープン語彙に優れたアノテーションのない3Dセグメンテーションを提供する。
論文 参考訳(メタデータ) (2023-10-05T21:57:36Z) - Context-Aware Entity Grounding with Open-Vocabulary 3D Scene Graphs [22.499136041727432]
Open-Vocabulary 3D Scene Graph (OVSG)は、エンティティを自由形式のテキストベースのクエリでグラウンドするフォーマルなフレームワークである。
3Dシーングラフに関する既存の研究とは対照的に、OVSGは自由形式のテキスト入力とオープン語彙クエリをサポートする。
論文 参考訳(メタデータ) (2023-09-27T18:32:29Z) - SCFusion: Real-time Incremental Scene Reconstruction with Semantic
Completion [86.77318031029404]
本研究では,シーン再構成とセマンティックシーン補完を段階的かつリアルタイムに共同で行うフレームワークを提案する。
我々のフレームワークは、3Dグローバルモデルでセマンティックコンプリートを正確かつ効率的に融合させるために、占有マップを処理し、ボクセル状態を活用するように設計された新しいニューラルアーキテクチャに依存している。
論文 参考訳(メタデータ) (2020-10-26T15:31:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。