論文の概要: Segment then Splat: A Unified Approach for 3D Open-Vocabulary Segmentation based on Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2503.22204v1
- Date: Fri, 28 Mar 2025 07:36:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:29:35.431994
- Title: Segment then Splat: A Unified Approach for 3D Open-Vocabulary Segmentation based on Gaussian Splatting
- Title(参考訳): ガウススプラッティングに基づく3次元オープンボキャブラリセグメンテーションのための統一的アプローチ
- Authors: Yiren Lu, Yunlai Zhou, Yiran Qiao, Chaoda Song, Tuo Liang, Jing Ma, Yu Yin,
- Abstract要約: 3D空間でのオープンボキャブラリクエリは、ロボット工学、自律システム、拡張現実といったアプリケーションにおいて、よりインテリジェントな認識を可能にするために不可欠である。
既存のほとんどの手法は2Dピクセルレベルの解析に依存しており、多視点の不整合と3Dオブジェクトの検索が貧弱になる。
そこで,静的シーンと動的シーンの両方に対して,3D対応のオープン語彙セグメンテーション手法であるセグメンテーションを提案する。
- 参考スコア(独自算出の注目度): 11.186317340623807
- License:
- Abstract: Open-vocabulary querying in 3D space is crucial for enabling more intelligent perception in applications such as robotics, autonomous systems, and augmented reality. However, most existing methods rely on 2D pixel-level parsing, leading to multi-view inconsistencies and poor 3D object retrieval. Moreover, they are limited to static scenes and struggle with dynamic scenes due to the complexities of motion modeling. In this paper, we propose Segment then Splat, a 3D-aware open vocabulary segmentation approach for both static and dynamic scenes based on Gaussian Splatting. Segment then Splat reverses the long established approach of "segmentation after reconstruction" by dividing Gaussians into distinct object sets before reconstruction. Once the reconstruction is complete, the scene is naturally segmented into individual objects, achieving true 3D segmentation. This approach not only eliminates Gaussian-object misalignment issues in dynamic scenes but also accelerates the optimization process, as it eliminates the need for learning a separate language field. After optimization, a CLIP embedding is assigned to each object to enable open-vocabulary querying. Extensive experiments on various datasets demonstrate the effectiveness of our proposed method in both static and dynamic scenarios.
- Abstract(参考訳): 3D空間でのオープンボキャブラリクエリは、ロボット工学や自律システム、拡張現実といったアプリケーションにおいて、よりインテリジェントな認識を可能にするために不可欠である。
しかし、既存のほとんどの手法は2Dピクセルレベルの解析に依存しており、多視点の不整合と3Dオブジェクトの検索が貧弱になる。
さらに、静的なシーンに限られており、モーションモデリングの複雑さのために動的なシーンに苦しむ。
本稿では,Gaussian Splattingに基づく静的および動的シーンの3次元認識型オープン語彙セグメンテーション手法であるSegment then Splatを提案する。
セグメンツは、再建前にガウスを異なる対象集合に分割することで、長い間確立されていた「再建後のセグメンテーション」のアプローチを逆転させる。
復元が完了すると、シーンは自然に個々のオブジェクトに分割され、真の3Dセグメンテーションが達成される。
このアプローチは、動的シーンにおけるガウス・オブジェクトのミスアライメント問題を除去するだけでなく、別の言語分野を学ぶ必要がなくなるため、最適化プロセスを加速させる。
最適化後、CLIP埋め込みが各オブジェクトに割り当てられ、オープン語彙クエリが可能である。
各種データセットに対する大規模な実験により,静的シナリオと動的シナリオの両方において提案手法の有効性が示された。
関連論文リスト
- 3D Part Segmentation via Geometric Aggregation of 2D Visual Features [57.20161517451834]
監督された3D部分分割モデルは、固定されたオブジェクトと部品のセットに合わせて調整されており、それらの転送可能性は、オープンセットの現実世界のシナリオに制限される。
近年、視覚言語モデル(VLM)を多視点レンダリングとテキストプロンプトを用いてオブジェクト部品の識別に活用する研究が進められている。
これらの制約に対処するために,視覚概念から抽出した意味論と3次元幾何学をブレンドし,対象部品を効果的に同定するCOPSを提案する。
論文 参考訳(メタデータ) (2024-12-05T15:27:58Z) - Occam's LGS: An Efficient Approach for Language Gaussian Splatting [57.00354758206751]
言語3Dガウススプラッティングのための複雑なパイプラインは、単純に不要であることを示す。
我々は,オッカムのカミソリを手作業に適用し,高効率な重み付き多視点特徴集約技術を実現する。
論文 参考訳(メタデータ) (2024-12-02T18:50:37Z) - T-3DGS: Removing Transient Objects for 3D Scene Reconstruction [83.05271859398779]
映像シーケンスにおける過渡的オブジェクトは、3Dシーン再構成の品質を著しく低下させる可能性がある。
我々は,ガウススプラッティングを用いた3次元再構成において,過渡的障害を頑健に除去する新しいフレームワークT-3DGSを提案する。
論文 参考訳(メタデータ) (2024-11-29T07:45:24Z) - GOI: Find 3D Gaussians of Interest with an Optimizable Open-vocabulary Semantic-space Hyperplane [53.388937705785025]
3Dオープンボキャブラリのシーン理解は、拡張現実とロボット応用の推進に不可欠である。
GOIは2次元視覚言語基礎モデルから3次元ガウススプラッティング(3DGS)に意味的特徴を統合するフレームワークである。
提案手法では,特徴空間内の超平面分割として特徴選択処理を扱い,クエリに関連性の高い特徴のみを保持する。
論文 参考訳(メタデータ) (2024-05-27T18:57:18Z) - Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。
既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。
我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文 参考訳(メタデータ) (2024-03-22T21:28:19Z) - SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z) - Spatial Semantic Embedding Network: Fast 3D Instance Segmentation with
Deep Metric Learning [5.699350798684963]
ディープラーニングを用いた3次元インスタンスセグメンテーションのための,単純かつ効率的なアルゴリズムを提案する。
大規模シーンからの高レベルのインテリジェントなタスクに対して、3Dインスタンスセグメンテーションはオブジェクトの個々のインスタンスを認識する。
我々は,ScanNet 3D インスタンス分割ベンチマークにおいて,我々のアルゴリズムの最先端性能をAPスコアで示す。
論文 参考訳(メタデータ) (2020-07-07T02:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。