論文の概要: Masked Scene Modeling: Narrowing the Gap Between Supervised and Self-Supervised Learning in 3D Scene Understanding
- arxiv url: http://arxiv.org/abs/2504.06719v1
- Date: Wed, 09 Apr 2025 09:19:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:07:30.322364
- Title: Masked Scene Modeling: Narrowing the Gap Between Supervised and Self-Supervised Learning in 3D Scene Understanding
- Title(参考訳): マスケシーンモデリング:3次元シーン理解における教師付き学習と自己指導型学習のギャップを狭める
- Authors: Pedro Hermosilla, Christian Stippel, Leon Sick,
- Abstract要約: 本稿では,3次元シーン理解のための自己監督機能の品質を評価するためのロバストな評価プロトコルを提案する。
本稿では, 線形探索装置において, 市販品のみを使用する場合に, 教師付きモデルと同様に機能する最初の自己教師型モデルを提案する。
我々の実験は、教師付きモデルに対する競合性能を実証するだけでなく、既存の自己教師型アプローチを大きなマージンで上回っている。
- 参考スコア(独自算出の注目度): 5.035452169519211
- License:
- Abstract: Self-supervised learning has transformed 2D computer vision by enabling models trained on large, unannotated datasets to provide versatile off-the-shelf features that perform similarly to models trained with labels. However, in 3D scene understanding, self-supervised methods are typically only used as a weight initialization step for task-specific fine-tuning, limiting their utility for general-purpose feature extraction. This paper addresses this shortcoming by proposing a robust evaluation protocol specifically designed to assess the quality of self-supervised features for 3D scene understanding. Our protocol uses multi-resolution feature sampling of hierarchical models to create rich point-level representations that capture the semantic capabilities of the model and, hence, are suitable for evaluation with linear probing and nearest-neighbor methods. Furthermore, we introduce the first self-supervised model that performs similarly to supervised models when only off-the-shelf features are used in a linear probing setup. In particular, our model is trained natively in 3D with a novel self-supervised approach based on a Masked Scene Modeling objective, which reconstructs deep features of masked patches in a bottom-up manner and is specifically tailored to hierarchical 3D models. Our experiments not only demonstrate that our method achieves competitive performance to supervised models, but also surpasses existing self-supervised approaches by a large margin. The model and training code can be found at our Github repository (https://github.com/phermosilla/msm).
- Abstract(参考訳): 自己教師型学習は、大規模な無注釈データセットでトレーニングされたモデルに、ラベルでトレーニングされたモデルと同じような機能を備えた汎用的なオフザシェルフ機能を提供することによって、2Dコンピュータビジョンを変革した。
しかし、3Dシーン理解においては、自己教師付き手法は一般に、タスク固有の微調整のための重み付け初期化ステップとしてのみ使用され、汎用的特徴抽出の実用性を制限している。
本稿では,3次元シーン理解のための自己監督機能の品質評価に特化して設計されたロバストな評価プロトコルを提案することで,この欠点に対処する。
提案プロトコルでは,階層型モデルの多分解能特徴サンプリングを用いて,モデルのセマンティックな特徴を捉えたリッチな点レベル表現を作成し,線形探索および近接近傍手法による評価に適している。
さらに, 線形探索装置において, 既設の特徴のみを用いる場合に, 教師付きモデルと同じような動作を行う最初の自己教師付きモデルを提案する。
特に,マスクされたパッチの深い特徴をボトムアップで再構築し,階層的な3Dモデルに特化させる,マスケシーンモデリングの目的に基づく,新しい自己教師型アプローチで3Dをネイティブに訓練する。
我々の実験は、教師付きモデルに対する競合性能を実証するだけでなく、既存の自己教師型アプローチを大きなマージンで上回っている。
モデルとトレーニングコードはGithubリポジトリ(https://github.com/phermosilla/msm)にあります。
関連論文リスト
- A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本研究では,ガウスプレートの拡散モデルであるSplatDiffusionを導入し,単一画像から3次元構造を生成する。
既存の方法は決定論的フィードフォワード予測に依存しており、2Dデータからの3D推論の本質的な曖昧さを扱う能力を制限する。
論文 参考訳(メタデータ) (2024-12-01T00:29:57Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - CLIP-FO3D: Learning Free Open-world 3D Scene Representations from 2D
Dense CLIP [19.66617835750012]
3Dシーン理解モデルのトレーニングには、複雑な人間のアノテーションが必要である。
視覚言語による事前学習モデル(例えばCLIP)は、顕著なオープンワールド推論特性を示している。
本稿では,CLIPの特徴空間を直接3次元シーン理解モデルに変換することを提案する。
論文 参考訳(メタデータ) (2023-03-08T17:30:58Z) - Training and Tuning Generative Neural Radiance Fields for Attribute-Conditional 3D-Aware Face Generation [66.21121745446345]
本稿では,特定の属性ラベルを入力として統合した条件付きGNeRFモデルを提案する。
提案手法は, 事前学習した3次元顔モデルに基づいており, 条件付き正規化フローモジュールをトレーニングするためのTraining as Init and fidelity for Tuning (TRIOT) 方式を提案する。
本実験は,ビューの整合性を高めた高品質な編集を行う能力を示すとともに,本モデルの有効性を実証するものである。
論文 参考訳(メタデータ) (2022-08-26T10:05:39Z) - Stereo Neural Vernier Caliper [57.187088191829886]
学習に基づくステレオ3Dオブジェクト検出のための新しいオブジェクト中心フレームワークを提案する。
初期3次元立方体推定値から改良された更新を予測する方法の問題に対処する。
提案手法は,KITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-21T14:36:07Z) - Semi-Supervised Adversarial Recognition of Refined Window Structures for
Inverse Procedural Fa\c{c}ade Modeling [17.62526990262815]
本稿では,逆手続きモデルに組み込んだ半教師付き対角認識戦略を提案する。
既存の3Dモデリングソフトウェアの内部に、単純なプロシージャエンジンが構築され、きめ細かい窓のジオメトリが生成される。
公開されているファサード画像データセットを用いた実験により、提案したトレーニング戦略により、分類精度が約10%向上できることが判明した。
論文 参考訳(メタデータ) (2022-01-22T06:34:48Z) - Contrastive Neighborhood Alignment [81.65103777329874]
本稿では,学習特徴のトポロジを維持するための多様体学習手法であるContrastive Neighborhood Alignment(CNA)を提案する。
対象モデルは、対照的な損失を用いて、ソース表現空間の局所構造を模倣することを目的としている。
CNAは3つのシナリオで説明される: 多様体学習、モデルが元のデータの局所的なトポロジーを次元還元された空間で維持する、モデル蒸留、小さな学生モデルがより大きな教師を模倣するために訓練される、レガシーモデル更新、より強力なモデルに置き換えられる、という3つのシナリオである。
論文 参考訳(メタデータ) (2022-01-06T04:58:31Z) - SA-Det3D: Self-Attention Based Context-Aware 3D Object Detection [9.924083358178239]
本稿では,3次元物体検出におけるコンテキストモデリングのための2種類の自己注意法を提案する。
まず,現状のbev,voxel,ポイントベース検出器にペアワイズ自着機構を組み込む。
次に,ランダムにサンプリングされた位置の変形を学習することにより,最も代表的な特徴のサブセットをサンプリングするセルフアテンション変種を提案する。
論文 参考訳(メタデータ) (2021-01-07T18:30:32Z) - PerMO: Perceiving More at Once from a Single Image for Autonomous
Driving [76.35684439949094]
単一画像から完全テクスチャ化された車両の3次元モデルを検出し,セグメント化し,再構成する新しい手法を提案する。
私たちのアプローチは、ディープラーニングの強みと従来のテクニックの優雅さを組み合わせています。
我々はこれらのアルゴリズムを自律運転システムに統合した。
論文 参考訳(メタデータ) (2020-07-16T05:02:45Z) - PolyGen: An Autoregressive Generative Model of 3D Meshes [22.860421649320287]
本稿では,Transformerベースのアーキテクチャを用いてメッシュを直接モデル化するアプローチを提案する。
我々のモデルは、オブジェクトクラス、ボクセル、イメージなど、様々な入力を条件にすることができる。
このモデルでは、高品質で使い勝手の良いメッシュを生成でき、メッシュモデリングタスクのためのログライクなベンチマークを確立することができる。
論文 参考訳(メタデータ) (2020-02-23T17:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。