Fugu-MT 論文翻訳(概要): Self-supervised Pre-training with Masked Shape Prediction for 3D Scene Understanding

論文の概要: Self-supervised Pre-training with Masked Shape Prediction for 3D Scene Understanding

arxiv url: http://arxiv.org/abs/2305.05026v1
Date: Mon, 8 May 2023 20:09:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-10 14:32:55.960943
Title: Self-supervised Pre-training with Masked Shape Prediction for 3D Scene Understanding
Title（参考訳）: 3次元シーン理解のためのマスク形状予測による自己教師付き事前学習
Authors: Li Jiang, Zetong Yang, Shaoshuai Shi, Vladislav Golyanik, Dengxin Dai, Bernt Schiele
Abstract要約: Masked Shape Prediction (MSP)は、3Dシーンでマスクされた信号モデリングを行うための新しいフレームワークである。 MSPは3Dセマンティックキュー、すなわち幾何学的形状をマスクされた点の予測ターゲットとして使用する。
参考スコア（独自算出の注目度）: 106.0876425365599
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Masked signal modeling has greatly advanced self-supervised pre-training for language and 2D images. However, it is still not fully explored in 3D scene understanding. Thus, this paper introduces Masked Shape Prediction (MSP), a new framework to conduct masked signal modeling in 3D scenes. MSP uses the essential 3D semantic cue, i.e., geometric shape, as the prediction target for masked points. The context-enhanced shape target consisting of explicit shape context and implicit deep shape feature is proposed to facilitate exploiting contextual cues in shape prediction. Meanwhile, the pre-training architecture in MSP is carefully designed to alleviate the masked shape leakage from point coordinates. Experiments on multiple 3D understanding tasks on both indoor and outdoor datasets demonstrate the effectiveness of MSP in learning good feature representations to consistently boost downstream performance.
Abstract（参考訳）: マスク信号モデリングは、言語と2d画像の自己教師あり事前学習を大幅に進歩させた。しかし、3Dシーンの理解においては、まだ完全には研究されていない。そこで本稿では,3次元シーンでマスキング信号モデリングを行う新しいフレームワークであるMasked Shape Prediction (MSP)を紹介する。 MSPは3Dセマンティックキュー、すなわち幾何学的形状をマスクされた点の予測ターゲットとして使用する。明示的な形状コンテキストと暗黙の深層形状特徴からなるコンテキストエンハンス形状ターゲットを提案し,形状予測における文脈手がかりの活用を容易にする。一方、MSPの事前学習アーキテクチャは、点座標からのマスク状形状の漏れを軽減するために慎重に設計されている。屋内および屋外の両方のデータセットにおける複数の3D理解タスクの実験は、下流のパフォーマンスを継続的に向上させる良い特徴表現の学習におけるMSPの有効性を示す。

関連論文リスト

UniForward: Unified 3D Scene and Semantic Field Reconstruction via Feed-Forward Gaussian Splatting from Only Sparse-View Images [43.40816438003861]
本稿では,3次元シーンとセマンティックフィールドの再構成を統一したフィードフォワードモデルを提案する。我々のUniForwardは、スパースビュー画像のみから、3Dシーンと対応するセマンティックフィールドをリアルタイムで再構築することができる。新規なビュー合成と新規なビューセグメンテーションの実験により,本手法が最先端の性能を達成することを示す。
論文参考訳（メタデータ） (2025-06-11T04:01:21Z)
DGOcc: Depth-aware Global Query-based Network for Monocular 3D Occupancy Prediction [17.38916914453357]
2次元画像から大規模屋外シーンの3次元占有を予測することは、不適切で資源集約的である。モノクロ3DのtextbfOccupancy 予測のための textbfGlobal クエリベースのネットワーク textbfDGOcc を提案する。提案手法は,GPUと時間オーバーヘッドを低減しつつ,単分子的セマンティック占有率予測における最高の性能を実現する。
論文参考訳（メタデータ） (2025-04-10T07:44:55Z)
XMask3D: Cross-modal Mask Reasoning for Open Vocabulary 3D Semantic Segmentation [72.12250272218792]
本稿では,3次元特徴量と2次元テキスト埋め込み空間とのより精巧なマスクレベルのアライメントを,クロスモーダルマスク推論フレームワークであるXMask3Dを用いて提案する。我々は、3Dグローバルな特徴を暗黙の条件として、事前訓練された2D denoising UNetに統合し、セグメンテーションマスクの生成を可能にする。生成した2Dマスクを用いて、マスクレベルの3D表現を視覚言語の特徴空間と整合させ、3D幾何埋め込みの開語彙能力を増大させる。
論文参考訳（メタデータ） (2024-11-20T12:02:12Z)
Fast and Efficient: Mask Neural Fields for 3D Scene Segmentation [47.08813064337934]
本稿では,新しい視点から3次元オープン語彙セグメンテーションを実現するMaskFieldを提案する。 MaskFieldは、マスクの特徴フィールドとクエリを定式化することによって、基礎モデルからマスクと意味的特徴の蒸留を分解する。実験の結果,MaskFieldは従来の最先端手法を超越するだけでなく,極めて高速な収束を実現することがわかった。
論文参考訳（メタデータ） (2024-07-01T12:07:26Z)
MM-3DScene: 3D Scene Understanding by Customizing Masked Modeling with Informative-Preserved Reconstruction and Self-Distilled Consistency [120.9499803967496]
本稿では,地域統計を探索し,代表的構造化点の発見と保存を行う新しい情報保存型再構築法を提案する。本手法は, 地域形状のモデル化に集中し, マスク復元のあいまいさを軽減できる。マスク付き領域における情報保存型再構築と未加工領域からの連続自己蒸留を組み合わせることにより,MM-3DSceneと呼ばれる統合フレームワークが提供される。
論文参考訳（メタデータ） (2022-12-20T01:53:40Z)
3DLatNav: Navigating Generative Latent Spaces for Semantic-Aware 3D Object Manipulation [2.8661021832561757]
3D生成モデルは、最近、点雲という形で現実的な3Dオブジェクトを生成することに成功した。ほとんどのモデルは、広範囲なセマンティックラベルや他の参照ポイントクラウドなしでコンポーネントオブジェクトの形状セマンティクスを操作するための制御性を提供していません。本稿では3DLatNavを提案する。3Dオブジェクトの制御部分レベルのセマンティック操作を可能にするために,事前学習された潜在空間をナビゲートする新しいアプローチである。
論文参考訳（メタデータ） (2022-11-17T18:47:56Z)
3D Shape Reconstruction from 2D Images with Disentangled Attribute Flow [61.62796058294777]
単一の2D画像から3D形状を再構築することは難しい作業だ。従来の手法の多くは3次元再構成作業における意味的属性の抽出に苦慮している。本稿では,3DAttriFlowを用いて,入力画像の異なる意味レベルから意味的属性を抽出する手法を提案する。
論文参考訳（メタデータ） (2022-03-29T02:03:31Z)
MonoRUn: Monocular 3D Object Detection by Reconstruction and Uncertainty Propagation [4.202461384355329]
我々は,高密度な対応や幾何学を自己教師型で学習する,新しい3次元オブジェクト検出フレームワークMonoRUnを提案する。提案手法は,KITTIベンチマークの最先端手法より優れている。
論文参考訳（メタデータ） (2021-03-23T15:03:08Z)
Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。 3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文参考訳（メタデータ） (2020-08-04T13:56:19Z)
Implicit Mesh Reconstruction from Unannotated Image Collections [48.85604987196472]
本稿では,1枚のRGB画像から3次元形状,テクスチャ,カメラのポーズを推定する手法を提案する。この形状を画像条件付暗黙関数として表現し、球面を予測メッシュのそれに変換するとともに、対応するテクスチャを予測する。
論文参考訳（メタデータ） (2020-07-16T17:55:20Z)
3D Sketch-aware Semantic Scene Completion via Semi-supervised Structure Prior [50.73148041205675]
セマンティック・シーン・コンプリート(SSC)タスクの目標は、単一視点で観察することで、ボリューム占有率とシーン内のオブジェクトの意味ラベルの完全な3Dボクセル表現を同時に予測することである。低解像度のボクセル表現で深度情報を埋め込む新しい幾何学的手法を提案する。提案手法は,SSCフレームワークからの深度特徴学習よりも有効である。
論文参考訳（メタデータ） (2020-03-31T09:33:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。