論文の概要: MM-3DScene: 3D Scene Understanding by Customizing Masked Modeling with
Informative-Preserved Reconstruction and Self-Distilled Consistency
- arxiv url: http://arxiv.org/abs/2212.09948v2
- Date: Fri, 9 Jun 2023 11:59:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 17:55:24.602751
- Title: MM-3DScene: 3D Scene Understanding by Customizing Masked Modeling with
Informative-Preserved Reconstruction and Self-Distilled Consistency
- Title(参考訳): MM-3DScene: Informative-Preserved Reconstruction and Self-Distilled Consistencyを用いたマスケッドモデリングのカスタマイズによる3次元シーン理解
- Authors: Mingye Xu, Mutian Xu, Tong He, Wanli Ouyang, Yali Wang, Xiaoguang Han,
Yu Qiao
- Abstract要約: 本稿では,地域統計を探索し,代表的構造化点の発見と保存を行う新しい情報保存型再構築法を提案する。
本手法は, 地域形状のモデル化に集中し, マスク復元のあいまいさを軽減できる。
マスク付き領域における情報保存型再構築と未加工領域からの連続自己蒸留を組み合わせることにより,MM-3DSceneと呼ばれる統合フレームワークが提供される。
- 参考スコア(独自算出の注目度): 120.9499803967496
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Masked Modeling (MM) has demonstrated widespread success in various vision
challenges, by reconstructing masked visual patches. Yet, applying MM for
large-scale 3D scenes remains an open problem due to the data sparsity and
scene complexity. The conventional random masking paradigm used in 2D images
often causes a high risk of ambiguity when recovering the masked region of 3D
scenes. To this end, we propose a novel informative-preserved reconstruction,
which explores local statistics to discover and preserve the representative
structured points, effectively enhancing the pretext masking task for 3D scene
understanding. Integrated with a progressive reconstruction manner, our method
can concentrate on modeling regional geometry and enjoy less ambiguity for
masked reconstruction. Besides, such scenes with progressive masking ratios can
also serve to self-distill their intrinsic spatial consistency, requiring to
learn the consistent representations from unmasked areas. By elegantly
combining informative-preserved reconstruction on masked areas and consistency
self-distillation from unmasked areas, a unified framework called MM-3DScene is
yielded. We conduct comprehensive experiments on a host of downstream tasks.
The consistent improvement (e.g., +6.1 mAP@0.5 on object detection and +2.2%
mIoU on semantic segmentation) demonstrates the superiority of our approach.
- Abstract(参考訳): Masked Modeling (MM)は、マスク付き視覚パッチを再構築することで、様々な視覚的課題において広く成功している。
しかし、大規模な3DシーンにMMを適用することは、データの空間性とシーンの複雑さのため、未解決の問題である。
2d画像で使用される従来のランダムマスキングパラダイムは、3dシーンのマスキング領域を回復する際、曖昧さのリスクが高い。
そこで本研究では,3次元シーン理解のためのプリテキストマスキングタスクを効果的に強化し,局所統計を探索し,代表的構造化点の発見と保存を行う新しい情報保存型再構築を提案する。
本手法は, プログレッシブな再構築手法と統合され, 地域形状のモデリングに集中し, マスク付き復元のあいまいさを軽減できる。
また、プログレッシブ・マスキング比を持つシーンは、その内在的な空間的一貫性を自己蒸留し、未マスク領域から一貫した表現を学ばなければならない。
マスク領域における情報保存型再構成と非マスク領域からの自己蒸留をエレガントに組み合わせることにより、mm-3dsceneと呼ばれる統一的な枠組みが得られる。
下流タスクのホストに対して包括的な実験を行う。
一貫性のある改善(オブジェクト検出では+6.1 mAP@0.5、セマンティックセグメンテーションでは+2.2% mIoU)は、我々のアプローチの優位性を示している。
関連論文リスト
- XMask3D: Cross-modal Mask Reasoning for Open Vocabulary 3D Semantic Segmentation [72.12250272218792]
本稿では,3次元特徴量と2次元テキスト埋め込み空間とのより精巧なマスクレベルのアライメントを,クロスモーダルマスク推論フレームワークであるXMask3Dを用いて提案する。
我々は、3Dグローバルな特徴を暗黙の条件として、事前訓練された2D denoising UNetに統合し、セグメンテーションマスクの生成を可能にする。
生成した2Dマスクを用いて、マスクレベルの3D表現を視覚言語の特徴空間と整合させ、3D幾何埋め込みの開語彙能力を増大させる。
論文 参考訳(メタデータ) (2024-11-20T12:02:12Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - MOSE: Monocular Semantic Reconstruction Using NeRF-Lifted Noisy Priors [11.118490283303407]
画像レベルの雑音を3次元に引き上げるニューラルネットワークセマンティック・リコンストラクション手法を提案する。
本手法は3次元空間と2次元空間の両方で正確な意味論と幾何学を生成する。
論文 参考訳(メタデータ) (2024-09-21T05:12:13Z) - Improving Neural Indoor Surface Reconstruction with Mask-Guided Adaptive
Consistency Constraints [0.6749750044497732]
本稿では、ビュー依存色とビュー非依存色を分離する2段階のトレーニングプロセスを提案し、さらに2つの新しい一貫性制約を活用して、余分な事前処理を必要とせず、詳細な再構成性能を向上させる。
合成および実世界のデータセットの実験は、事前推定誤差から干渉を減らす能力を示している。
論文 参考訳(メタデータ) (2023-09-18T13:05:23Z) - MaskRenderer: 3D-Infused Multi-Mask Realistic Face Reenactment [0.7673339435080445]
本研究では,現実的かつ高忠実なフレームをリアルタイムに生成できる,エンド・ツー・エンドの識別非依存の顔再現システムMaskRendererを提案する。
論文 参考訳(メタデータ) (2023-09-10T17:41:46Z) - Mask to reconstruct: Cooperative Semantics Completion for Video-text
Retrieval [19.61947785487129]
Mask for Semantics Completion (MASCOT) - 意味に基づくマスキングモデル。
我々のMASCOTは4つの主要なテキストビデオ検索ベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-05-13T12:31:37Z) - Self-supervised Pre-training with Masked Shape Prediction for 3D Scene
Understanding [106.0876425365599]
Masked Shape Prediction (MSP)は、3Dシーンでマスクされた信号モデリングを行うための新しいフレームワークである。
MSPは3Dセマンティックキュー、すなわち幾何学的形状をマスクされた点の予測ターゲットとして使用する。
論文 参考訳(メタデータ) (2023-05-08T20:09:19Z) - GD-MAE: Generative Decoder for MAE Pre-training on LiDAR Point Clouds [72.60362979456035]
Masked Autoencoders (MAE)は、大規模な3Dポイントクラウドでの探索が難しい。
我々は,周囲のコンテキストを自動的にマージするためのtextbfGenerative textbfDecoder for MAE (GD-MAE)を提案する。
提案手法の有効性を, KITTI と ONCE の2つの大規模ベンチマークで実証した。
論文 参考訳(メタデータ) (2022-12-06T14:32:55Z) - Layered Depth Refinement with Mask Guidance [61.10654666344419]
汎用マスクを用いてSIDEモデルの深度予測を洗練させるマスク誘導深度改善の新しい問題を定式化する。
本フレームワークは,奥行きマップをマスクと逆マスクで表される2つの別々の層に分解し,層状改質・塗装・塗装を行う。
本手法は,内面境界領域と外面境界領域の深度を正確に補正し,異なる種類のマスクや初期深度予測に対して堅牢であることを示す。
論文 参考訳(メタデータ) (2022-06-07T06:42:44Z) - Topologically Consistent Multi-View Face Inference Using Volumetric
Sampling [25.001398662643986]
ToFuは、幾何推論フレームワークで、アイデンティティと式をまたいだトポロジ的に一貫したメッシュを生成することができる。
新たなプログレッシブメッシュ生成ネットワークは、顔のトポロジ的構造を特徴量に埋め込む。
これらの高品質な資産は、アバターの作成、アニメーション、物理的にベースとしたスキンレンダリングのためのプロダクションスタジオで容易に利用することができる。
論文 参考訳(メタデータ) (2021-10-06T17:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。