論文の概要: OpenGS-Fusion: Open-Vocabulary Dense Mapping with Hybrid 3D Gaussian Splatting for Refined Object-Level Understanding
- arxiv url: http://arxiv.org/abs/2508.01150v1
- Date: Sat, 02 Aug 2025 02:22:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.730386
- Title: OpenGS-Fusion: Open-Vocabulary Dense Mapping with Hybrid 3D Gaussian Splatting for Refined Object-Level Understanding
- Title(参考訳): OpenGS-Fusion: 改良されたオブジェクトレベル理解のためのハイブリッド3次元ガウス平滑化を用いた開語彙Dense Mapping
- Authors: Dianyi Yang, Xihan Wang, Yu Gao, Shiyang Liu, Bohan Ren, Yufeng Yue, Yi Yang,
- Abstract要約: 提案するOpenGS-Fusionは、セマンティックモデリングを改善し、オブジェクトレベルの理解を洗練させる革新的なオープン語彙密集型マッピングフレームワークである。
また,MLLM-Assisted Adaptive Thresholding という新しい多モーダル言語誘導手法を導入し,類似度閾値を適応的に調整することで3次元オブジェクトのセグメンテーションを改良する。
提案手法は,3次元オブジェクト理解とシーン再構築の品質において,既存の手法よりも優れており,言語誘導シーンインタラクションにおけるその効果を示している。
- 参考スコア(独自算出の注目度): 17.524454394142477
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in 3D scene understanding have made significant strides in enabling interaction with scenes using open-vocabulary queries, particularly for VR/AR and robotic applications. Nevertheless, existing methods are hindered by rigid offline pipelines and the inability to provide precise 3D object-level understanding given open-ended queries. In this paper, we present OpenGS-Fusion, an innovative open-vocabulary dense mapping framework that improves semantic modeling and refines object-level understanding. OpenGS-Fusion combines 3D Gaussian representation with a Truncated Signed Distance Field to facilitate lossless fusion of semantic features on-the-fly. Furthermore, we introduce a novel multimodal language-guided approach named MLLM-Assisted Adaptive Thresholding, which refines the segmentation of 3D objects by adaptively adjusting similarity thresholds, achieving an improvement 17\% in 3D mIoU compared to the fixed threshold strategy. Extensive experiments demonstrate that our method outperforms existing methods in 3D object understanding and scene reconstruction quality, as well as showcasing its effectiveness in language-guided scene interaction. The code is available at https://young-bit.github.io/opengs-fusion.github.io/ .
- Abstract(参考訳): 近年の3Dシーン理解の進歩は,特にVR/ARやロボットアプリケーションにおいて,オープン語彙クエリを用いたシーンとのインタラクションの実現に大きく貢献している。
それでも既存の手法は、厳密なオフラインパイプラインと、オープンなクエリに対して正確な3Dオブジェクトレベルの理解を提供することができないことで妨げられている。
本稿では、セマンティックモデリングを改善し、オブジェクトレベルの理解を洗練させる革新的なオープン語彙高密度マッピングフレームワークOpenGS-Fusionを提案する。
OpenGS-Fusionは、3Dガウス表現とTrncated Signed Distance Fieldを組み合わせることで、飛行中の意味的特徴の無意味な融合を容易にする。
さらに, MLLM-Assisted Adaptive Thresholding という新しい多モード言語誘導手法を導入し, 3次元オブジェクトのセグメンテーションを適応的に調整し, 3次元 mIoU の改善を固定しきい値戦略と比較した。
広汎な実験により,本手法は3次元オブジェクト理解やシーン再構築の質において既存の手法よりも優れており,言語誘導のシーンインタラクションにおけるその効果を示している。
コードはhttps://young-bit.github.io/opengs-fusion.github.io/で公開されている。
関連論文リスト
- OpenSplat3D: Open-Vocabulary 3D Instance Segmentation using Gaussian Splatting [52.40697058096931]
3D Gaussian Splatting (3DGS)は神経シーン再構築の強力な表現として登場した。
我々は,OpenSplat3Dと呼ばれる手動ラベリングを必要としないオープン語彙3Dインスタンスセグメンテーションのアプローチを提案する。
LERF-mask と LERF-OVS と ScanNet++ の完全な検証セットについて,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-06-09T12:37:15Z) - Training-Free Hierarchical Scene Understanding for Gaussian Splatting with Superpoint Graphs [16.153129392697885]
ガウス原始体から直接スーパーポイントグラフを構築する訓練自由フレームワークを導入する。
スーパーポイントグラフはシーンを空間的にコンパクトでセマンティックなコヒーレントな領域に分割し、ビュー一貫性の3Dエンティティを形成する。
提案手法は,30時間以上のセグメンテーションを高速化し,最先端のオープン語彙セグメンテーション性能を実現する。
論文 参考訳(メタデータ) (2025-04-17T17:56:07Z) - CAGS: Open-Vocabulary 3D Scene Understanding with Context-Aware Gaussian Splatting [18.581169318975046]
3D Gaussian Splatting (3DGS) はシーン再構築のための強力な表現を提供するが、相互視の粒度の不整合は問題である。
空間コンテキストを3DGSに組み込んだ新しいフレームワークCAGSを提案する。
CAGSは3Dインスタンスのセグメンテーションを大幅に改善し、LERF-OVSやScanNetといったデータセットのフラグメンテーションエラーを低減する。
論文 参考訳(メタデータ) (2025-04-16T09:20:03Z) - IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - GaussianGraph: 3D Gaussian-based Scene Graph Generation for Open-world Scene Understanding [20.578106363482018]
本稿では,セマンティッククラスタリングとシーングラフ生成を統合し,3DGSに基づくシーン理解を強化する新しいフレームワークを提案する。
本稿では,シーンスケールや特徴分布に動的に対応し,特徴圧縮を回避する"Control-Follow"クラスタリング戦略を提案する。
2次元基礎モデルから抽出したオブジェクト属性と空間関係を統合することでシーン表現を充実させる。
論文 参考訳(メタデータ) (2025-03-06T02:36:59Z) - OpenGS-SLAM: Open-Set Dense Semantic SLAM with 3D Gaussian Splatting for Object-Level Scene Understanding [20.578106363482018]
OpenGS-SLAMは3次元ガウス表現を利用して、オープンセット環境で密接なセマンティックSLAMを実行する革新的なフレームワークである。
本システムは,2次元モデルから派生した明示的なセマンティックラベルを3次元ガウスフレームワークに統合し,ロバストな3次元オブジェクトレベルの理解を容易にする。
本手法は従来の手法に比べて10倍高速なセマンティックレンダリングと2倍のストレージコストを実現する。
論文 参考訳(メタデータ) (2025-03-03T15:23:21Z) - OVGaussian: Generalizable 3D Gaussian Segmentation with Open Vocabularies [112.80292725951921]
textbfOVGaussianは3D textbfGaussian表現に基づいた、一般化可能なtextbfOpen-textbfVocabulary 3Dセマンティックセマンティックセグメンテーションフレームワークである。
まず,3DGSをベースとした大規模3Dシーンデータセット(textbfSegGaussian)を構築し,ガウス点とマルチビュー画像の両方に対して詳細なセマンティックおよびインスタンスアノテーションを提供する。
シーン間のセマンティック・一般化を促進するために,ジェネリック・セマンティック・ラスタライゼーション(GSR)を導入する。
論文 参考訳(メタデータ) (2024-12-31T07:55:35Z) - Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
FreeGSは複雑なデータ前処理のワークロードを避けながら、最先端のメソッドと互換性がある。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z) - Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - OpenGaussian: Towards Point-Level 3D Gaussian-based Open Vocabulary Understanding [54.981605111365056]
本稿では,3次元点レベルの開語彙理解が可能な3次元ガウススティング(3DGS)に基づくOpenGaussianを紹介する。
我々の主な動機は、既存の3DGSベースのオープン語彙法が主に2Dピクセルレベルの解析に焦点を当てていることに起因している。
論文 参考訳(メタデータ) (2024-06-04T07:42:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。