論文の概要: Self-supervised Pre-training with Masked Shape Prediction for 3D Scene
Understanding
- arxiv url: http://arxiv.org/abs/2305.05026v1
- Date: Mon, 8 May 2023 20:09:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-05-10 14:32:55.960943
- Title: Self-supervised Pre-training with Masked Shape Prediction for 3D Scene
Understanding
- Title(参考訳): 3次元シーン理解のためのマスク形状予測による自己教師付き事前学習
- Authors: Li Jiang, Zetong Yang, Shaoshuai Shi, Vladislav Golyanik, Dengxin Dai,
Bernt Schiele
- Abstract要約: Masked Shape Prediction (MSP)は、3Dシーンでマスクされた信号モデリングを行うための新しいフレームワークである。
MSPは3Dセマンティックキュー、すなわち幾何学的形状をマスクされた点の予測ターゲットとして使用する。
- 参考スコア(独自算出の注目度): 106.0876425365599
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked signal modeling has greatly advanced self-supervised pre-training for
language and 2D images. However, it is still not fully explored in 3D scene
understanding. Thus, this paper introduces Masked Shape Prediction (MSP), a new
framework to conduct masked signal modeling in 3D scenes. MSP uses the
essential 3D semantic cue, i.e., geometric shape, as the prediction target for
masked points. The context-enhanced shape target consisting of explicit shape
context and implicit deep shape feature is proposed to facilitate exploiting
contextual cues in shape prediction. Meanwhile, the pre-training architecture
in MSP is carefully designed to alleviate the masked shape leakage from point
coordinates. Experiments on multiple 3D understanding tasks on both indoor and
outdoor datasets demonstrate the effectiveness of MSP in learning good feature
representations to consistently boost downstream performance.
- Abstract(参考訳): マスク信号モデリングは、言語と2d画像の自己教師あり事前学習を大幅に進歩させた。
しかし、3Dシーンの理解においては、まだ完全には研究されていない。
そこで本稿では,3次元シーンでマスキング信号モデリングを行う新しいフレームワークであるMasked Shape Prediction (MSP)を紹介する。
MSPは3Dセマンティックキュー、すなわち幾何学的形状をマスクされた点の予測ターゲットとして使用する。
明示的な形状コンテキストと暗黙の深層形状特徴からなるコンテキストエンハンス形状ターゲットを提案し,形状予測における文脈手がかりの活用を容易にする。
一方、MSPの事前学習アーキテクチャは、点座標からのマスク状形状の漏れを軽減するために慎重に設計されている。
屋内および屋外の両方のデータセットにおける複数の3D理解タスクの実験は、下流のパフォーマンスを継続的に向上させる良い特徴表現の学習におけるMSPの有効性を示す。
関連論文リスト
- Task-Aware 3D Affordance Segmentation via 2D Guidance and Geometric Refinement [12.260126771415019]
タスク対応型3次元シーンアフォーダンスセグメンテーション(TASA)について紹介する。
TASAは2次元のセマンティックキューと3次元の幾何学的推論を粗い方法で併用する新しい幾何学最適化フレームワークである。
3次元幾何情報を完全に活用するために、局所的な3次元幾何と2次元セマンティック先行情報を統合するために、3次元アベイランス改良モジュールを提案する。
論文 参考訳(メタデータ) (2025-11-12T13:36:37Z) - PLANA3R: Zero-shot Metric Planar 3D Reconstruction via Feed-Forward Planar Splatting [56.188624157291024]
提案するPLANA3Rは,提案しない2次元画像から平面3次元再構成を計測するためのポーズレスフレームワークである。
トレーニング中に3次元平面アノテーションを必要とする以前のフィードフォワード法とは異なり、PLANA3Rは明確な平面監督なしで平面3次元構造を学習する。
本研究は,複数の室内環境データセットに対するPLANA3Rの有効性を検証するとともに,領域外屋内環境への強力な一般化を実証する。
論文 参考訳(メタデータ) (2025-10-21T15:15:33Z) - CORE-3D: Context-aware Open-vocabulary Retrieval by Embeddings in 3D [0.0]
3Dシーンの理解は、AIとロボティクスの具体化の基礎であり、インタラクションとナビゲーションの信頼性をサポートする。
近年のアプローチでは、視覚言語モデル(VLM)により生成された2次元クラス非依存マスクに埋め込みベクトルを割り当てることで、ゼロショットでオープンな3Dセマンティックマッピングを実現している。
プログレッシブな粒度改善を施したセマンティックSAMを用いて、より正確で多数のオブジェクトレベルのマスクを生成する。
論文 参考訳(メタデータ) (2025-09-29T09:43:00Z) - UniForward: Unified 3D Scene and Semantic Field Reconstruction via Feed-Forward Gaussian Splatting from Only Sparse-View Images [43.40816438003861]
本稿では,3次元シーンとセマンティックフィールドの再構成を統一したフィードフォワードモデルを提案する。
我々のUniForwardは、スパースビュー画像のみから、3Dシーンと対応するセマンティックフィールドをリアルタイムで再構築することができる。
新規なビュー合成と新規なビューセグメンテーションの実験により,本手法が最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2025-06-11T04:01:21Z) - DGOcc: Depth-aware Global Query-based Network for Monocular 3D Occupancy Prediction [17.38916914453357]
2次元画像から大規模屋外シーンの3次元占有を予測することは、不適切で資源集約的である。
モノクロ3DのtextbfOccupancy 予測のための textbfGlobal クエリベースのネットワーク textbfDGOcc を提案する。
提案手法は,GPUと時間オーバーヘッドを低減しつつ,単分子的セマンティック占有率予測における最高の性能を実現する。
論文 参考訳(メタデータ) (2025-04-10T07:44:55Z) - Shape from Semantics: 3D Shape Generation from Multi-View Semantics [30.969299308083723]
既存の3D再構成手法では, 3次元画像, 3次元点雲, 形状輪郭, 単一意味論などのガイダンスを用いて3次元表面を復元する。
図形や外観が、異なる視点から見ると、与えられたテキストの意味と一致した3Dモデルを作成することを目的として、新しい3Dモデリングタスク「Shape from Semantics'」を提案する。
論文 参考訳(メタデータ) (2025-02-01T07:51:59Z) - XMask3D: Cross-modal Mask Reasoning for Open Vocabulary 3D Semantic Segmentation [72.12250272218792]
本稿では,3次元特徴量と2次元テキスト埋め込み空間とのより精巧なマスクレベルのアライメントを,クロスモーダルマスク推論フレームワークであるXMask3Dを用いて提案する。
我々は、3Dグローバルな特徴を暗黙の条件として、事前訓練された2D denoising UNetに統合し、セグメンテーションマスクの生成を可能にする。
生成した2Dマスクを用いて、マスクレベルの3D表現を視覚言語の特徴空間と整合させ、3D幾何埋め込みの開語彙能力を増大させる。
論文 参考訳(メタデータ) (2024-11-20T12:02:12Z) - Fast and Efficient: Mask Neural Fields for 3D Scene Segmentation [47.08813064337934]
本稿では,新しい視点から3次元オープン語彙セグメンテーションを実現するMaskFieldを提案する。
MaskFieldは、マスクの特徴フィールドとクエリを定式化することによって、基礎モデルからマスクと意味的特徴の蒸留を分解する。
実験の結果,MaskFieldは従来の最先端手法を超越するだけでなく,極めて高速な収束を実現することがわかった。
論文 参考訳(メタデータ) (2024-07-01T12:07:26Z) - MM-3DScene: 3D Scene Understanding by Customizing Masked Modeling with
Informative-Preserved Reconstruction and Self-Distilled Consistency [120.9499803967496]
本稿では,地域統計を探索し,代表的構造化点の発見と保存を行う新しい情報保存型再構築法を提案する。
本手法は, 地域形状のモデル化に集中し, マスク復元のあいまいさを軽減できる。
マスク付き領域における情報保存型再構築と未加工領域からの連続自己蒸留を組み合わせることにより,MM-3DSceneと呼ばれる統合フレームワークが提供される。
論文 参考訳(メタデータ) (2022-12-20T01:53:40Z) - 3DLatNav: Navigating Generative Latent Spaces for Semantic-Aware 3D
Object Manipulation [2.8661021832561757]
3D生成モデルは、最近、点雲という形で現実的な3Dオブジェクトを生成することに成功した。
ほとんどのモデルは、広範囲なセマンティックラベルや他の参照ポイントクラウドなしでコンポーネントオブジェクトの形状セマンティクスを操作するための制御性を提供していません。
本稿では3DLatNavを提案する。3Dオブジェクトの制御部分レベルのセマンティック操作を可能にするために,事前学習された潜在空間をナビゲートする新しいアプローチである。
論文 参考訳(メタデータ) (2022-11-17T18:47:56Z) - 3D Shape Reconstruction from 2D Images with Disentangled Attribute Flow [61.62796058294777]
単一の2D画像から3D形状を再構築することは難しい作業だ。
従来の手法の多くは3次元再構成作業における意味的属性の抽出に苦慮している。
本稿では,3DAttriFlowを用いて,入力画像の異なる意味レベルから意味的属性を抽出する手法を提案する。
論文 参考訳(メタデータ) (2022-03-29T02:03:31Z) - MonoRUn: Monocular 3D Object Detection by Reconstruction and Uncertainty
Propagation [4.202461384355329]
我々は,高密度な対応や幾何学を自己教師型で学習する,新しい3次元オブジェクト検出フレームワークMonoRUnを提案する。
提案手法は,KITTIベンチマークの最先端手法より優れている。
論文 参考訳(メタデータ) (2021-03-23T15:03:08Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z) - Implicit Mesh Reconstruction from Unannotated Image Collections [48.85604987196472]
本稿では,1枚のRGB画像から3次元形状,テクスチャ,カメラのポーズを推定する手法を提案する。
この形状を画像条件付暗黙関数として表現し、球面を予測メッシュのそれに変換するとともに、対応するテクスチャを予測する。
論文 参考訳(メタデータ) (2020-07-16T17:55:20Z) - 3D Sketch-aware Semantic Scene Completion via Semi-supervised Structure
Prior [50.73148041205675]
セマンティック・シーン・コンプリート(SSC)タスクの目標は、単一視点で観察することで、ボリューム占有率とシーン内のオブジェクトの意味ラベルの完全な3Dボクセル表現を同時に予測することである。
低解像度のボクセル表現で深度情報を埋め込む新しい幾何学的手法を提案する。
提案手法は,SSCフレームワークからの深度特徴学習よりも有効である。
論文 参考訳(メタデータ) (2020-03-31T09:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。