Fugu-MT 論文翻訳(概要): MM-3DScene: 3D Scene Understanding by Customizing Masked Modeling with Informative-Preserved Reconstruction and Self-Distilled Consistency

論文の概要: MM-3DScene: 3D Scene Understanding by Customizing Masked Modeling with Informative-Preserved Reconstruction and Self-Distilled Consistency

arxiv url: http://arxiv.org/abs/2212.09948v1
Date: Tue, 20 Dec 2022 01:53:40 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-21 16:26:41.330418
Title: MM-3DScene: 3D Scene Understanding by Customizing Masked Modeling with Informative-Preserved Reconstruction and Self-Distilled Consistency
Title（参考訳）: MM-3DScene: Informative-Preserved Reconstruction and Self-Distilled Consistencyを用いたマスケッドモデリングのカスタマイズによる3次元シーン理解
Authors: Mingye Xu, Mutian Xu, Tong He, Wanli Ouyang, Yali Wang, Xiaoguang Han, Yu Qiao
Abstract要約: 本稿では,地域統計を探索し,代表的構造化点の発見と保存を行う新しい情報保存型再構築法を提案する。本手法は, 地域形状のモデル化に集中し, マスク復元のあいまいさを軽減できる。マスク付き領域における情報保存型再構築と未加工領域からの連続自己蒸留を組み合わせることにより,MM-3DSceneと呼ばれる統合フレームワークが提供される。
参考スコア（独自算出の注目度）: 120.9499803967496
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Masked Modeling (MM) has demonstrated widespread success in various vision challenges, by reconstructing masked visual patches. Yet, applying MM for large-scale 3D scenes remains an open problem due to the data sparsity and scene complexity. The conventional random masking paradigm used in 2D images often causes a high risk of ambiguity when recovering the masked region of 3D scenes. To this end, we propose a novel informative-preserved reconstruction, which explores local statistics to discover and preserve the representative structured points, effectively enhancing the pretext masking task for 3D scene understanding. Integrated with a progressive reconstruction manner, our method can concentrate on modeling regional geometry and enjoy less ambiguity for masked reconstruction. Besides, such scenes with progressive masking ratios can also serve to self-distill their intrinsic spatial consistency, requiring to learn the consistent representations from unmasked areas. By elegantly combining informative-preserved reconstruction on masked areas and consistency self-distillation from unmasked areas, a unified framework called MM-3DScene is yielded. We conduct comprehensive experiments on a host of downstream tasks. The consistent improvement (e.g., +6.1 mAP@0.5 on object detection and +2.2% mIoU on semantic segmentation) demonstrates the superiority of our approach.
Abstract（参考訳）: Masked Modeling (MM)は、マスク付き視覚パッチを再構築することで、様々な視覚的課題において広く成功している。しかし、大規模な3DシーンにMMを適用することは、データの空間性とシーンの複雑さのため、未解決の問題である。 2d画像で使用される従来のランダムマスキングパラダイムは、3dシーンのマスキング領域を回復する際、曖昧さのリスクが高い。そこで本研究では,3次元シーン理解のためのプリテキストマスキングタスクを効果的に強化し,局所統計を探索し,代表的構造化点の発見と保存を行う新しい情報保存型再構築を提案する。本手法は, プログレッシブな再構築手法と統合され, 地域形状のモデリングに集中し, マスク付き復元のあいまいさを軽減できる。また、プログレッシブ・マスキング比を持つシーンは、その内在的な空間的一貫性を自己蒸留し、未マスク領域から一貫した表現を学ばなければならない。マスク領域における情報保存型再構成と非マスク領域からの自己蒸留をエレガントに組み合わせることにより、mm-3dsceneと呼ばれる統一的な枠組みが得られる。下流タスクのホストに対して包括的な実験を行う。一貫性のある改善(オブジェクト検出では+6.1 mAP@0.5、セマンティックセグメンテーションでは+2.2% mIoU)は、我々のアプローチの優位性を示している。

関連論文リスト

InpaintHuman: Reconstructing Occluded Humans with Multi-Scale UV Mapping and Identity-Preserving Diffusion Inpainting [64.42884719282323]
InpaintHumanは、モノクロビデオから高忠実で完全でアニマタブルなアバターを生成する新しい方法である。我々のアプローチは、アイデンティティの忠実性を保証するために、直接ピクセルレベルの監視を採用する。
論文参考訳（メタデータ） (2026-01-05T13:26:02Z)
High-fidelity 3D Gaussian Inpainting: preserving multi-view consistency and photorealistic details [8.279171283542066]
3Dシーンの塗装は、3D構造に固有の不規則性のため、依然として難しい課題である。本稿では,スパース・インペインティング・ビューを活用することで,完全な3Dシーンを再構築する新しい3Dガウス・インペインティング・フレームワークを提案する。我々の手法は、視覚的品質と視界の整合性の両方において、既存の最先端手法よりも優れています。
論文参考訳（メタデータ） (2025-07-24T01:48:50Z)
MaskHOI: Robust 3D Hand-Object Interaction Estimation via Masked Pre-training [23.200848479769903]
MaskHOIは、新しいMasked AutoencoderによるHOIポーズ推定のための事前トレーニングフレームワークである。我々の中核となる考え方は、MAEのマスキング・ザ・リコンストラクション戦略を利用して、特徴エンコーダが欠落した空間情報や構造情報を推測することを奨励することである。本研究では,事前学習したエンコーダの幾何学的認識を高めるために,新しいMasked Signed Distance Field(SDF)駆動マルチモーダル学習機構を導入する。
論文参考訳（メタデータ） (2025-07-18T05:52:37Z)
Masks make discriminative models great again! [63.877419140833844]
Image2GSは、1枚の画像から3Dシーンを再構築するための新しいアプローチです。私たちは差別モデルに適したより決定論的タスクを作成します。本研究は, 未確認領域に適応する際, 差別モデルが直面する根本的苦難を浮き彫りにする。
論文参考訳（メタデータ） (2025-07-01T16:22:23Z)
IMFine: 3D Inpainting via Geometry-guided Multi-view Refinement [15.206470606085341]
そこで我々は,一貫した視覚的品質とコヒーレントな基礎構造を持つ3Dシーンをインペイントする新しい手法を提案する。具体的には,幾何学的先行点と,テスト時間適応により学習した多視点改善ネットワークを組み込んだ3次元インペイントパイプラインを提案する。本研究では,対象マスクを対象マスクから抽出する新しい塗装マスク検出手法を開発し,制約のないシーンの処理性能を向上させる。
論文参考訳（メタデータ） (2025-03-06T14:50:17Z)
XMask3D: Cross-modal Mask Reasoning for Open Vocabulary 3D Semantic Segmentation [72.12250272218792]
本稿では,3次元特徴量と2次元テキスト埋め込み空間とのより精巧なマスクレベルのアライメントを,クロスモーダルマスク推論フレームワークであるXMask3Dを用いて提案する。我々は、3Dグローバルな特徴を暗黙の条件として、事前訓練された2D denoising UNetに統合し、セグメンテーションマスクの生成を可能にする。生成した2Dマスクを用いて、マスクレベルの3D表現を視覚言語の特徴空間と整合させ、3D幾何埋め込みの開語彙能力を増大させる。
論文参考訳（メタデータ） (2024-11-20T12:02:12Z)
Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。 LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文参考訳（メタデータ） (2024-10-24T17:54:42Z)
MOSE: Monocular Semantic Reconstruction Using NeRF-Lifted Noisy Priors [11.118490283303407]
画像レベルの雑音を3次元に引き上げるニューラルネットワークセマンティック・リコンストラクション手法を提案する。本手法は3次元空間と2次元空間の両方で正確な意味論と幾何学を生成する。
論文参考訳（メタデータ） (2024-09-21T05:12:13Z)
Mixed Diffusion for 3D Indoor Scene Synthesis [55.94569112629208]
提案するMiDiffusionは,可塑性3次元屋内シーンを合成するための混合離散連続拡散モデルである。床条件の3次元シーン合成において,最先端の自己回帰モデルおよび拡散モデルより優れることを示す。
論文参考訳（メタデータ） (2024-05-31T17:54:52Z)
Gaga: Group Any Gaussians via 3D-aware Memory Bank [66.54280093684427]
Gagaは、ゼロショットクラス非依存セグメンテーションモデルによって予測される一貫性のない2Dマスクを活用することで、オープンワールドの3Dシーンを再構築し、セグメント化する。 Gagaは、新しい3D認識メモリバンクを通じて、さまざまなカメラのポーズをオブジェクトマスクに関連付ける。
論文参考訳（メタデータ） (2024-04-11T17:57:19Z)
Improving Neural Indoor Surface Reconstruction with Mask-Guided Adaptive Consistency Constraints [0.6749750044497732]
本稿では、ビュー依存色とビュー非依存色を分離する2段階のトレーニングプロセスを提案し、さらに2つの新しい一貫性制約を活用して、余分な事前処理を必要とせず、詳細な再構成性能を向上させる。合成および実世界のデータセットの実験は、事前推定誤差から干渉を減らす能力を示している。
論文参考訳（メタデータ） (2023-09-18T13:05:23Z)
MaskRenderer: 3D-Infused Multi-Mask Realistic Face Reenactment [0.7673339435080445]
本研究では,現実的かつ高忠実なフレームをリアルタイムに生成できる,エンド・ツー・エンドの識別非依存の顔再現システムMaskRendererを提案する。
論文参考訳（メタデータ） (2023-09-10T17:41:46Z)
Mask to reconstruct: Cooperative Semantics Completion for Video-text Retrieval [19.61947785487129]
Mask for Semantics Completion (MASCOT) - 意味に基づくマスキングモデル。我々のMASCOTは4つの主要なテキストビデオ検索ベンチマークで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2023-05-13T12:31:37Z)
Self-supervised Pre-training with Masked Shape Prediction for 3D Scene Understanding [106.0876425365599]
Masked Shape Prediction (MSP)は、3Dシーンでマスクされた信号モデリングを行うための新しいフレームワークである。 MSPは3Dセマンティックキュー、すなわち幾何学的形状をマスクされた点の予測ターゲットとして使用する。
論文参考訳（メタデータ） (2023-05-08T20:09:19Z)
GD-MAE: Generative Decoder for MAE Pre-training on LiDAR Point Clouds [72.60362979456035]
Masked Autoencoders (MAE)は、大規模な3Dポイントクラウドでの探索が難しい。我々は,周囲のコンテキストを自動的にマージするためのtextbfGenerative textbfDecoder for MAE (GD-MAE)を提案する。提案手法の有効性を, KITTI と ONCE の2つの大規模ベンチマークで実証した。
論文参考訳（メタデータ） (2022-12-06T14:32:55Z)
Layered Depth Refinement with Mask Guidance [61.10654666344419]
汎用マスクを用いてSIDEモデルの深度予測を洗練させるマスク誘導深度改善の新しい問題を定式化する。本フレームワークは,奥行きマップをマスクと逆マスクで表される2つの別々の層に分解し,層状改質・塗装・塗装を行う。本手法は,内面境界領域と外面境界領域の深度を正確に補正し,異なる種類のマスクや初期深度予測に対して堅牢であることを示す。
論文参考訳（メタデータ） (2022-06-07T06:42:44Z)
Topologically Consistent Multi-View Face Inference Using Volumetric Sampling [25.001398662643986]
ToFuは、幾何推論フレームワークで、アイデンティティと式をまたいだトポロジ的に一貫したメッシュを生成することができる。新たなプログレッシブメッシュ生成ネットワークは、顔のトポロジ的構造を特徴量に埋め込む。これらの高品質な資産は、アバターの作成、アニメーション、物理的にベースとしたスキンレンダリングのためのプロダクションスタジオで容易に利用することができる。
論文参考訳（メタデータ） (2021-10-06T17:55:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。