論文の概要: Fast and Efficient: Mask Neural Fields for 3D Scene Segmentation
- arxiv url: http://arxiv.org/abs/2407.01220v1
- Date: Mon, 1 Jul 2024 12:07:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 21:39:54.793005
- Title: Fast and Efficient: Mask Neural Fields for 3D Scene Segmentation
- Title(参考訳): 高速かつ効率的な3次元シーンセグメンテーションのためのマスクニューラルネットワーク
- Authors: Zihan Gao, Lingling Li, Licheng Jiao, Fang Liu, Xu Liu, Wenping Ma, Yuwei Guo, Shuyuan Yang,
- Abstract要約: MaskFieldは、弱い監督下でニューラルネットワークによる3Dオープン語彙セグメンテーションを可能にする。
トレーニング中の高次元CLIP機能の直接的なハンドリングを克服する。
非常に高速な収束を実現し、トレーニングのわずか5分で従来の方法より優れています。
- 参考スコア(独自算出の注目度): 47.08813064337934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding 3D scenes is a crucial challenge in computer vision research with applications spanning multiple domains. Recent advancements in distilling 2D vision-language foundation models into neural fields, like NeRF and 3DGS, enables open-vocabulary segmentation of 3D scenes from 2D multi-view images without the need for precise 3D annotations. While effective, however, the per-pixel distillation of high-dimensional CLIP features introduces ambiguity and necessitates complex regularization strategies, adding inefficiencies during training. This paper presents MaskField, which enables fast and efficient 3D open-vocabulary segmentation with neural fields under weak supervision. Unlike previous methods, MaskField distills masks rather than dense high-dimensional CLIP features. MaskFields employ neural fields as binary mask generators and supervise them with masks generated by SAM and classified by coarse CLIP features. MaskField overcomes the ambiguous object boundaries by naturally introducing SAM segmented object shapes without extra regularization during training. By circumventing the direct handling of high-dimensional CLIP features during training, MaskField is particularly compatible with explicit scene representations like 3DGS. Our extensive experiments show that MaskField not only surpasses prior state-of-the-art methods but also achieves remarkably fast convergence, outperforming previous methods with just 5 minutes of training. We hope that MaskField will inspire further exploration into how neural fields can be trained to comprehend 3D scenes from 2D models.
- Abstract(参考訳): 3Dシーンを理解することは、複数のドメインにまたがるアプリケーションによるコンピュータビジョン研究において重要な課題である。
NeRFや3DGSのような2D視覚言語基礎モデルをニューラルネットワークに蒸留する最近の進歩は、正確な3Dアノテーションを必要とせずに、2Dの多視点画像から3Dシーンをオープンな語彙で分割することを可能にする。
しかし、高次元CLIPの1ピクセルあたりの蒸留は曖昧さをもたらし、複雑な正則化戦略を必要とし、訓練中に非効率性を加える。
本稿では,ニューラルネットワークによる高速かつ効率的な3次元オープン語彙セグメンテーションを実現するMaskFieldを提案する。
従来の方法とは異なり、MaskFieldは高次元のCLIPの特徴ではなくマスクを蒸留する。
MaskFieldsは神経磁場をバイナリマスクジェネレータとして使用し、SAMによって生成されたマスクを監督し、CLIPの特徴によって分類する。
MaskFieldは、トレーニング中に余分な正規化なしにSAMセグメント化されたオブジェクト形状を自然に導入することで、あいまいなオブジェクト境界を克服する。
トレーニング中の高次元CLIP機能の直接的なハンドリングを回避することで、MaskFieldは特に3DGSのような明示的なシーン表現と互換性がある。
我々の広範な実験により、MaskFieldは従来の最先端の手法を超越するだけでなく、驚くほど高速な収束を実現し、トレーニングの5分で従来の手法よりも優れていたことが示されている。
MaskFieldが2Dモデルから3Dのシーンを理解するために、ニューラルネットワークをどのように訓練するかを、さらに探求することを期待している。
関連論文リスト
- PLGS: Robust Panoptic Lifting with 3D Gaussian Splatting [16.333566122541022]
雑音の多い2Dセグメンテーションマスクから3DGSが一貫した単眼セグメンテーションマスクを生成できるPLGSと呼ばれる新しい手法を提案する。
本手法は,従来の最先端手法よりもセグメンテーション品質と速度の両面で優れていた。
論文 参考訳(メタデータ) (2024-10-23T02:05:05Z) - Triple Point Masking [49.39218611030084]
既存の3Dマスク学習手法は、限られたデータの下でパフォーマンスボトルネックに遭遇する。
我々は、マスク付きオートエンコーダの事前学習のためのスケーラブルなフレームワークとして、TPMと呼ばれるトリプルポイントマスキング方式を導入する。
大規模な実験により,提案したTPMを組み込んだ4つのベースラインが,下流タスクの総合的な性能向上を実現することが示された。
論文 参考訳(メタデータ) (2024-09-26T05:33:30Z) - EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。
オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文 参考訳(メタデータ) (2024-08-21T17:57:06Z) - DiscoNeRF: Class-Agnostic Object Field for 3D Object Discovery [46.711276257688326]
NeRFは複数の画像から3Dシーンをモデリングするための強力なツールになっている。
以前のNeRFの3Dセグメンテーションへのアプローチは、単一のオブジェクトを分離するためにユーザーインタラクションを必要とするか、あるいは監督のために限られた数のクラスを持つ2Dセマンティックマスクに依存している。
本稿では,一貫性のないセグメンテーションに頑健な手法を提案し,シーンを任意のクラスのオブジェクトの集合に分解することに成功した。
論文 参考訳(メタデータ) (2024-08-19T12:07:24Z) - Efficient 3D Instance Mapping and Localization with Neural Fields [39.73128916618561]
本稿では,RGB画像の列から3次元インスタンスセグメンテーションの暗黙的なシーン表現を学習する問題に取り組む。
本稿では,新しい視点から3Dインスタンスセグメンテーションマスクを描画するニューラルラベルフィールドを効率的に学習する新しいフレームワークである3DIMLを紹介する。
論文 参考訳(メタデータ) (2024-03-28T19:25:25Z) - Self-supervised Pre-training with Masked Shape Prediction for 3D Scene
Understanding [106.0876425365599]
Masked Shape Prediction (MSP)は、3Dシーンでマスクされた信号モデリングを行うための新しいフレームワークである。
MSPは3Dセマンティックキュー、すなわち幾何学的形状をマスクされた点の予測ターゲットとして使用する。
論文 参考訳(メタデータ) (2023-05-08T20:09:19Z) - Contrastive Context-Aware Learning for 3D High-Fidelity Mask Face
Presentation Attack Detection [103.7264459186552]
顔認識システムには、顔提示攻撃検出(PAD)が不可欠である。
ほとんどの既存の3DマスクPADベンチマークにはいくつかの欠点があります。
現実世界のアプリケーションとのギャップを埋めるために、大規模なハイファイアリティマスクデータセットを紹介します。
論文 参考訳(メタデータ) (2021-04-13T12:48:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。