Fugu-MT 論文翻訳(概要): OpenSplat3D: Open-Vocabulary 3D Instance Segmentation using Gaussian Splatting

論文の概要: OpenSplat3D: Open-Vocabulary 3D Instance Segmentation using Gaussian Splatting

arxiv url: http://arxiv.org/abs/2506.07697v1
Date: Mon, 09 Jun 2025 12:37:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-10 16:33:10.94498
Title: OpenSplat3D: Open-Vocabulary 3D Instance Segmentation using Gaussian Splatting
Title（参考訳）: OpenSplat3D:Gaussian Splattingを用いたオープン語彙3Dインスタンスセグメンテーション
Authors: Jens Piekenbrinck, Christian Schmidt, Alexander Hermans, Narunas Vaskevicius, Timm Linder, Bastian Leibe,
Abstract要約: 3D Gaussian Splatting (3DGS)は神経シーン再構築の強力な表現として登場した。我々は,OpenSplat3Dと呼ばれる手動ラベリングを必要としないオープン語彙3Dインスタンスセグメンテーションのアプローチを提案する。 LERF-mask と LERF-OVS と ScanNet++ の完全な検証セットについて,本手法の有効性を実証した。
参考スコア（独自算出の注目度）: 52.40697058096931
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: 3D Gaussian Splatting (3DGS) has emerged as a powerful representation for neural scene reconstruction, offering high-quality novel view synthesis while maintaining computational efficiency. In this paper, we extend the capabilities of 3DGS beyond pure scene representation by introducing an approach for open-vocabulary 3D instance segmentation without requiring manual labeling, termed OpenSplat3D. Our method leverages feature-splatting techniques to associate semantic information with individual Gaussians, enabling fine-grained scene understanding. We incorporate Segment Anything Model instance masks with a contrastive loss formulation as guidance for the instance features to achieve accurate instance-level segmentation. Furthermore, we utilize language embeddings of a vision-language model, allowing for flexible, text-driven instance identification. This combination enables our system to identify and segment arbitrary objects in 3D scenes based on natural language descriptions. We show results on LERF-mask and LERF-OVS as well as the full ScanNet++ validation set, demonstrating the effectiveness of our approach.
Abstract（参考訳）: 3D Gaussian Splatting (3DGS)は神経シーン再構成の強力な表現として登場し、計算効率を保ちながら高品質な新規ビュー合成を提供する。本稿では,OpenSplat3Dと呼ばれる手動ラベリングを必要とせず,オープン語彙の3Dインスタンスセグメンテーションへのアプローチを導入することで,純粋なシーン表現を超えて3DGSの機能を拡張する。提案手法は,特徴分割手法を利用して意味情報を個々のガウス語と関連付けることで,きめ細かなシーン理解を可能にする。 Segment Anything Modelのインスタンスマスクと対照的なロスの定式化をインスタンス機能のガイダンスとして組み込んで、正確なインスタンスレベルのセグメンテーションを実現します。さらに、視覚言語モデルの言語埋め込みを利用して、柔軟でテキスト駆動のインスタンス識別を可能にする。この組み合わせにより,自然言語による記述に基づいて,任意のオブジェクトを3次元シーンで識別・分割することが可能になる。 LERF-mask と LERF-OVS と ScanNet++ の完全な検証セットについて,本手法の有効性を実証した。

関連論文リスト

OpenGS-Fusion: Open-Vocabulary Dense Mapping with Hybrid 3D Gaussian Splatting for Refined Object-Level Understanding [17.524454394142477]
提案するOpenGS-Fusionは、セマンティックモデリングを改善し、オブジェクトレベルの理解を洗練させる革新的なオープン語彙密集型マッピングフレームワークである。また,MLLM-Assisted Adaptive Thresholding という新しい多モーダル言語誘導手法を導入し,類似度閾値を適応的に調整することで3次元オブジェクトのセグメンテーションを改良する。提案手法は,3次元オブジェクト理解とシーン再構築の品質において,既存の手法よりも優れており,言語誘導シーンインタラクションにおけるその効果を示している。
論文参考訳（メタデータ） (2025-08-02T02:22:36Z)
Dr. Splat: Directly Referring 3D Gaussian Splatting via Direct Language Embedding Registration [41.046653227409564]
Dr. Splatは3Dガウススプラッティングを利用したオープンな3Dシーン理解のための新しいアプローチである。本手法は,言語対応のCLIP埋め込みと3Dガウスアンを関連付けることで,総合的な3Dシーン理解を実現する。実験により、我々のアプローチは既存の3次元知覚ベンチマークよりも大幅に優れていることが示された。
論文参考訳（メタデータ） (2025-02-23T17:01:14Z)
OVGaussian: Generalizable 3D Gaussian Segmentation with Open Vocabularies [112.80292725951921]
textbfOVGaussianは3D textbfGaussian表現に基づいた、一般化可能なtextbfOpen-textbfVocabulary 3Dセマンティックセマンティックセグメンテーションフレームワークである。まず,3DGSをベースとした大規模3Dシーンデータセット(textbfSegGaussian)を構築し,ガウス点とマルチビュー画像の両方に対して詳細なセマンティックおよびインスタンスアノテーションを提供する。シーン間のセマンティック・一般化を促進するために,ジェネリック・セマンティック・ラスタライゼーション(GSR)を導入する。
論文参考訳（メタデータ） (2024-12-31T07:55:35Z)
DCSEG: Decoupled 3D Open-Set Segmentation using Gaussian Splatting [0.0]
本稿では,新しい3次元表現へのモジュラリティと適応性を確保するために,分離した3次元分割パイプラインを提案する。我々は、合成および実世界の屋内データセットを評価し、同等のNeRFパイプラインよりも優れた性能を示す。
論文参考訳（メタデータ） (2024-12-14T21:26:44Z)
Occam's LGS: An Efficient Approach for Language Gaussian Splatting [57.00354758206751]
言語3Dガウススプラッティングのための複雑なパイプラインは、単純に不要であることを示す。我々は,オッカムのカミソリを手作業に適用し,高効率な重み付き多視点特徴集約技術を実現する。
論文参考訳（メタデータ） (2024-12-02T18:50:37Z)
Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。 FreeGSは複雑なデータ前処理のワークロードを避けながら、最先端のメソッドと互換性がある。
論文参考訳（メタデータ） (2024-11-29T08:52:32Z)
Search3D: Hierarchical Open-Vocabulary 3D Segmentation [78.47704793095669]
本稿では,階層的なオープンな3Dシーン表現を構築するためのアプローチであるSearch3Dを紹介する。従来の方法とは異なり、Search3Dはより柔軟なオープンな3D検索パラダイムにシフトする。体系的な評価のために,MultiScanに基づくシーンスケールのオープンボキャブラリ3D部分セグメンテーションベンチマークを提案する。
論文参考訳（メタデータ） (2024-09-27T03:44:07Z)
AutoInst: Automatic Instance-Based Segmentation of LiDAR 3D Scans [41.17467024268349]
3D環境を理解するには、きめ細かい風景を理解する必要がある。教師なしの方法で3次元シーンのインスタンスセグメンテーションを予測することを提案する。平均精度は13.3%,F1スコアは9.1%向上した。
論文参考訳（メタデータ） (2024-03-24T22:53:16Z)
SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。 ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文参考訳（メタデータ） (2023-12-17T09:05:47Z)
Lowis3D: Language-Driven Open-World Instance-Level 3D Scene Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文参考訳（メタデータ） (2023-08-01T07:50:14Z)
OpenScene: 3D Scene Understanding with Open Vocabularies [73.1411930820683]
従来の3Dシーン理解アプローチは、単一のタスクのためにモデルをトレーニングするためのラベル付き3Dデータセットに依存している。私たちは,CLIP機能空間にテキストと画像ピクセルを埋め込んだ3次元シーンポイントの高密度な特徴をモデルが予測する代替手法OpenSceneを提案する。このゼロショットアプローチは、タスク非依存のトレーニングとオープン語彙クエリを可能にする。
論文参考訳（メタデータ） (2022-11-28T18:58:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。