論文の概要: MM-3DScene: 3D Scene Understanding by Customizing Masked Modeling with
Informative-Preserved Reconstruction and Self-Distilled Consistency
- arxiv url: http://arxiv.org/abs/2212.09948v1
- Date: Tue, 20 Dec 2022 01:53:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 16:26:41.330418
- Title: MM-3DScene: 3D Scene Understanding by Customizing Masked Modeling with
Informative-Preserved Reconstruction and Self-Distilled Consistency
- Title(参考訳): MM-3DScene: Informative-Preserved Reconstruction and Self-Distilled Consistencyを用いたマスケッドモデリングのカスタマイズによる3次元シーン理解
- Authors: Mingye Xu, Mutian Xu, Tong He, Wanli Ouyang, Yali Wang, Xiaoguang Han,
Yu Qiao
- Abstract要約: 本稿では,地域統計を探索し,代表的構造化点の発見と保存を行う新しい情報保存型再構築法を提案する。
本手法は, 地域形状のモデル化に集中し, マスク復元のあいまいさを軽減できる。
マスク付き領域における情報保存型再構築と未加工領域からの連続自己蒸留を組み合わせることにより,MM-3DSceneと呼ばれる統合フレームワークが提供される。
- 参考スコア(独自算出の注目度): 120.9499803967496
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Masked Modeling (MM) has demonstrated widespread success in various vision
challenges, by reconstructing masked visual patches. Yet, applying MM for
large-scale 3D scenes remains an open problem due to the data sparsity and
scene complexity. The conventional random masking paradigm used in 2D images
often causes a high risk of ambiguity when recovering the masked region of 3D
scenes. To this end, we propose a novel informative-preserved reconstruction,
which explores local statistics to discover and preserve the representative
structured points, effectively enhancing the pretext masking task for 3D scene
understanding. Integrated with a progressive reconstruction manner, our method
can concentrate on modeling regional geometry and enjoy less ambiguity for
masked reconstruction. Besides, such scenes with progressive masking ratios can
also serve to self-distill their intrinsic spatial consistency, requiring to
learn the consistent representations from unmasked areas. By elegantly
combining informative-preserved reconstruction on masked areas and consistency
self-distillation from unmasked areas, a unified framework called MM-3DScene is
yielded. We conduct comprehensive experiments on a host of downstream tasks.
The consistent improvement (e.g., +6.1 mAP@0.5 on object detection and +2.2%
mIoU on semantic segmentation) demonstrates the superiority of our approach.
- Abstract(参考訳): Masked Modeling (MM)は、マスク付き視覚パッチを再構築することで、様々な視覚的課題において広く成功している。
しかし、大規模な3DシーンにMMを適用することは、データの空間性とシーンの複雑さのため、未解決の問題である。
2d画像で使用される従来のランダムマスキングパラダイムは、3dシーンのマスキング領域を回復する際、曖昧さのリスクが高い。
そこで本研究では,3次元シーン理解のためのプリテキストマスキングタスクを効果的に強化し,局所統計を探索し,代表的構造化点の発見と保存を行う新しい情報保存型再構築を提案する。
本手法は, プログレッシブな再構築手法と統合され, 地域形状のモデリングに集中し, マスク付き復元のあいまいさを軽減できる。
また、プログレッシブ・マスキング比を持つシーンは、その内在的な空間的一貫性を自己蒸留し、未マスク領域から一貫した表現を学ばなければならない。
マスク領域における情報保存型再構成と非マスク領域からの自己蒸留をエレガントに組み合わせることにより、mm-3dsceneと呼ばれる統一的な枠組みが得られる。
下流タスクのホストに対して包括的な実験を行う。
一貫性のある改善(オブジェクト検出では+6.1 mAP@0.5、セマンティックセグメンテーションでは+2.2% mIoU)は、我々のアプローチの優位性を示している。
関連論文リスト
- Improving Neural Indoor Surface Reconstruction with Mask-Guided Adaptive
Consistency Constraints [0.6749750044497732]
本稿では、ビュー依存色とビュー非依存色を分離する2段階のトレーニングプロセスを提案し、さらに2つの新しい一貫性制約を活用して、余分な事前処理を必要とせず、詳細な再構成性能を向上させる。
合成および実世界のデータセットの実験は、事前推定誤差から干渉を減らす能力を示している。
論文 参考訳(メタデータ) (2023-09-18T13:05:23Z) - MaskRenderer: 3D-Infused Multi-Mask Realistic Face Reenactment [0.7673339435080445]
本研究では,現実的かつ高忠実なフレームをリアルタイムに生成できる,エンド・ツー・エンドの識別非依存の顔再現システムMaskRendererを提案する。
論文 参考訳(メタデータ) (2023-09-10T17:41:46Z) - Mask to reconstruct: Cooperative Semantics Completion for Video-text
Retrieval [19.61947785487129]
Mask for Semantics Completion (MASCOT) - 意味に基づくマスキングモデル。
我々のMASCOTは4つの主要なテキストビデオ検索ベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-05-13T12:31:37Z) - Self-supervised Pre-training with Masked Shape Prediction for 3D Scene
Understanding [106.0876425365599]
Masked Shape Prediction (MSP)は、3Dシーンでマスクされた信号モデリングを行うための新しいフレームワークである。
MSPは3Dセマンティックキュー、すなわち幾何学的形状をマスクされた点の予測ターゲットとして使用する。
論文 参考訳(メタデータ) (2023-05-08T20:09:19Z) - GD-MAE: Generative Decoder for MAE Pre-training on LiDAR Point Clouds [72.60362979456035]
Masked Autoencoders (MAE)は、大規模な3Dポイントクラウドでの探索が難しい。
我々は,周囲のコンテキストを自動的にマージするためのtextbfGenerative textbfDecoder for MAE (GD-MAE)を提案する。
提案手法の有効性を, KITTI と ONCE の2つの大規模ベンチマークで実証した。
論文 参考訳(メタデータ) (2022-12-06T14:32:55Z) - Layered Depth Refinement with Mask Guidance [61.10654666344419]
汎用マスクを用いてSIDEモデルの深度予測を洗練させるマスク誘導深度改善の新しい問題を定式化する。
本フレームワークは,奥行きマップをマスクと逆マスクで表される2つの別々の層に分解し,層状改質・塗装・塗装を行う。
本手法は,内面境界領域と外面境界領域の深度を正確に補正し,異なる種類のマスクや初期深度予測に対して堅牢であることを示す。
論文 参考訳(メタデータ) (2022-06-07T06:42:44Z) - Topologically Consistent Multi-View Face Inference Using Volumetric
Sampling [25.001398662643986]
ToFuは、幾何推論フレームワークで、アイデンティティと式をまたいだトポロジ的に一貫したメッシュを生成することができる。
新たなプログレッシブメッシュ生成ネットワークは、顔のトポロジ的構造を特徴量に埋め込む。
これらの高品質な資産は、アバターの作成、アニメーション、物理的にベースとしたスキンレンダリングのためのプロダクションスタジオで容易に利用することができる。
論文 参考訳(メタデータ) (2021-10-06T17:55:08Z) - SCFusion: Real-time Incremental Scene Reconstruction with Semantic
Completion [86.77318031029404]
本研究では,シーン再構成とセマンティックシーン補完を段階的かつリアルタイムに共同で行うフレームワークを提案する。
我々のフレームワークは、3Dグローバルモデルでセマンティックコンプリートを正確かつ効率的に融合させるために、占有マップを処理し、ボクセル状態を活用するように設計された新しいニューラルアーキテクチャに依存している。
論文 参考訳(メタデータ) (2020-10-26T15:31:52Z) - Self-Supervised Scene De-occlusion [186.89979151728636]
本稿では,隠蔽対象の隠蔽順序を復元し,隠蔽対象の見えない部分を完成させることを目的としたシーン非隠蔽問題について検討する。
そこで本研究では,隠されたシーン構造を監視対象として指示やアモーダルアノテーションを使わずに復元する,新規で統一的なフレームワークを用いて,この問題に対処する試みを行う。
そこで,PCNet-M と PCNet-C をベースとして,プログレッシブ・オーダリング・リカバリ,アモーダル・コンプリーメント,コンテント・コンプリートを通じてシーン・デオクルージョンを実現する新しい推論手法を考案した。
論文 参考訳(メタデータ) (2020-04-06T16:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。