論文の概要: MGPC: Multimodal Network for Generalizable Point Cloud Completion With Modality Dropout and Progressive Decoding
- arxiv url: http://arxiv.org/abs/2601.03660v1
- Date: Wed, 07 Jan 2026 07:16:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.365663
- Title: MGPC: Multimodal Network for Generalizable Point Cloud Completion With Modality Dropout and Progressive Decoding
- Title(参考訳): MGPC: モダリティドロップアウトとプログレッシブデコーディングを備えた汎用ポイントクラウドコンプリートのためのマルチモーダルネットワーク
- Authors: Jiangyuan Liu, Hongxuan Ma, Yuhao Zhao, Zhe Liu, Jian Wang, Wei Zou,
- Abstract要約: 汎用化可能なマルチモーダル・ポイント・クラウド・コンプリート・フレームワークMGPCを提案する。
MGPCは、ポイントクラウド、RGBイメージ、テキストを統一アーキテクチャに統合する。
MGPCは相変わらず以前のベースラインを上回り、現実世界の条件下で強い一般化を示す。
- 参考スコア(独自算出の注目度): 17.902803491948834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Point cloud completion aims to recover complete 3D geometry from partial observations caused by limited viewpoints and occlusions. Existing learning-based works, including 3D Convolutional Neural Network (CNN)-based, point-based, and Transformer-based methods, have achieved strong performance on synthetic benchmarks. However, due to the limitations of modality, scalability, and generative capacity, their generalization to novel objects and real-world scenarios remains challenging. In this paper, we propose MGPC, a generalizable multimodal point cloud completion framework that integrates point clouds, RGB images, and text within a unified architecture. MGPC introduces an innovative modality dropout strategy, a Transformer-based fusion module, and a novel progressive generator to improve robustness, scalability, and geometric modeling capability. We further develop an automatic data generation pipeline and construct MGPC-1M, a large-scale benchmark with over 1,000 categories and one million training pairs. Extensive experiments on MGPC-1M and in-the-wild data demonstrate that the proposed method consistently outperforms prior baselines and exhibits strong generalization under real-world conditions.
- Abstract(参考訳): ポイント雲の完成は、限られた視点と閉塞によって生じる部分的な観測から完全な3次元幾何学を復元することを目的としている。
3D Convolutional Neural Network(CNN)ベースのポイントベース、Transformerベースの方法を含む既存の学習ベースの研究は、合成ベンチマークで強力なパフォーマンスを実現している。
しかし、モダリティ、スケーラビリティ、生成能力の限界により、新しいオブジェクトへの一般化や現実のシナリオへの一般化は依然として困難である。
本稿では,汎用化可能なマルチモーダル・ポイント・クラウド・コンプリート・フレームワークMGPCを提案する。
MGPCは、革新的なモダリティ・ドロップアウト戦略、トランスフォーマーベースの融合モジュール、そしてロバスト性、スケーラビリティ、幾何モデリング能力を改善する新しいプログレッシブ・ジェネレータを導入している。
さらに,1000以上のカテゴリと100万のトレーニングペアを備えた大規模ベンチマークであるMGPC-1Mを構築し,自動データ生成パイプラインを構築した。
MGPC-1M と in-the-wild データの大規模な実験により,提案手法は従来よりも一貫して優れ,実世界の条件下での強い一般化を示すことが示された。
関連論文リスト
- Towards Efficient General Feature Prediction in Masked Skeleton Modeling [59.46799426434277]
マスクスケルトンモデリングのための新しい汎用特徴予測フレームワーク(GFP)を提案する。
我々の重要な革新は、局所的な動きパターンからグローバルな意味表現にまたがる、従来の低レベルな再構築を高レベルな特徴予測に置き換えることです。
論文 参考訳(メタデータ) (2025-09-03T18:05:02Z) - Empowering Bridge Digital Twins by Bridging the Data Gap with a Unified Synthesis Framework [6.238251307666132]
本稿では,3次元ブリッジデータを生成するための体系的枠組みを提案する。
コンポーネントレベルのインスタンスアノテーション、高忠実度カラー、正確な正規ベクトルを特徴とするポイントクラウドを自動的に生成できる。
実世界のブリッジセマンティックセマンティックセグメンテーションにおいて,合成データを用いてトレーニングしたPointNet++モデルにより,平均的なmIoU(Intersection over Union)が84.2%に達することを示す。
論文 参考訳(メタデータ) (2025-07-08T09:34:55Z) - PMA: Towards Parameter-Efficient Point Cloud Understanding via Point Mamba Adapter [54.33433051500349]
本稿では,事前学習モデルのすべての層から順序付き特徴系列を構成するPMAを提案する。
また、異なる層にまたがって共有される幾何学制約ゲートプロンプトジェネレータ(G2PG)を提案する。
論文 参考訳(メタデータ) (2025-05-27T09:27:16Z) - DSMNet: Deep High-precision 3D Surface Modeling from Sparse Point Cloud
Frames [12.531880335603145]
既存のポイントクラウドモデリングデータセットは、ポイントクラウドモデリング効果自体よりも、ポーズまたは軌道精度によるモデリング精度を表現する。
スパースポイントクラウドフレームを用いた高精度3次元表面モデリングのための新しい学習ベースジョイントフレームワークDSMNetを提案する。
論文 参考訳(メタデータ) (2023-04-09T09:23:06Z) - StarNet: Style-Aware 3D Point Cloud Generation [82.30389817015877]
StarNetは、マッピングネットワークを使用して高忠実度および3Dポイントクラウドを再構築し、生成することができる。
我々のフレームワークは、クラウドの再構築と生成タスクにおいて、様々なメトリクスで同等の最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2023-03-28T08:21:44Z) - AdaPoinTr: Diverse Point Cloud Completion with Adaptive Geometry-Aware
Transformers [94.11915008006483]
本稿では,ポイントクラウドの完了をセット・ツー・セットの翻訳問題として再定義する手法を提案する。
我々は、ポイントクラウド補完のためにTransformerエンコーダデコーダアーキテクチャを採用したPoinTrと呼ばれる新しいモデルを設計する。
本手法は,PCNで6.53 CD,ShapeNet-55で0.81 CD,現実世界のKITTIで0.392 MMDを実現する。
論文 参考訳(メタデータ) (2023-01-11T16:14:12Z) - Back to MLP: A Simple Baseline for Human Motion Prediction [59.18776744541904]
本稿では、歴史的に観察されたシーケンスから将来の身体のポーズを予測することによる、人間の動作予測の課題に取り組む。
これらの手法の性能は、0.14Mパラメータしか持たない軽量で純粋にアーキテクチャアーキテクチャによって超えることができることを示す。
Human3.6M, AMASS, 3DPWデータセットの徹底的な評価は, siMLPeをダブした我々の手法が, 他のアプローチよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2022-07-04T16:35:58Z) - PC-RGNN: Point Cloud Completion and Graph Neural Network for 3D Object
Detection [57.49788100647103]
LiDARベースの3Dオブジェクト検出は、自動運転にとって重要なタスクです。
現在のアプローチでは、遠方および閉ざされた物体の偏りと部分的な点雲に苦しむ。
本稿では,この課題を2つの解決法で解決する新しい二段階アプローチ,pc-rgnnを提案する。
論文 参考訳(メタデータ) (2020-12-18T18:06:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。