論文の概要: Class-Partitioned VQ-VAE and Latent Flow Matching for Point Cloud Scene Generation
- arxiv url: http://arxiv.org/abs/2601.12391v1
- Date: Sun, 18 Jan 2026 13:05:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.610372
- Title: Class-Partitioned VQ-VAE and Latent Flow Matching for Point Cloud Scene Generation
- Title(参考訳): 点雲シーン生成のためのクラス分割VQ-VAEと潜時流マッチング
- Authors: Dasith de Silva Edirimuni, Ajmal Saeed Mian,
- Abstract要約: 分級ベクトル量子化変分オートエンコーダ(CPVQ-VAE)
本稿では,物体の潜伏する特徴を効果的に復号するために訓練されたCPVQ-VAE(Class-Partitioned Vector Quantized Variational Autoencoder)を提案する。
提案手法は,ChamferとPoint2Meshのエラーを最大70.4%,72.3%削減して,可塑性点雲のシーンを確実に復元する。
- 参考スコア(独自算出の注目度): 8.263985049535869
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most 3D scene generation methods are limited to only generating object bounding box parameters while newer diffusion methods also generate class labels and latent features. Using object size or latent feature, they then retrieve objects from a predefined database. For complex scenes of varied, multi-categorical objects, diffusion-based latents cannot be effectively decoded by current autoencoders into the correct point cloud objects which agree with target classes. We introduce a Class-Partitioned Vector Quantized Variational Autoencoder (CPVQ-VAE) that is trained to effectively decode object latent features, by employing a pioneering $\textit{class-partitioned codebook}$ where codevectors are labeled by class. To address the problem of $\textit{codebook collapse}$, we propose a $\textit{class-aware}$ running average update which reinitializes dead codevectors within each partition. During inference, object features and class labels, both generated by a Latent-space Flow Matching Model (LFMM) designed specifically for scene generation, are consumed by the CPVQ-VAE. The CPVQ-VAE's class-aware inverse look-up then maps generated latents to codebook entries that are decoded to class-specific point cloud shapes. Thereby, we achieve pure point cloud generation without relying on an external objects database for retrieval. Extensive experiments reveal that our method reliably recovers plausible point cloud scenes, with up to 70.4% and 72.3% reduction in Chamfer and Point2Mesh errors on complex living room scenes.
- Abstract(参考訳): 多くの3Dシーン生成法はオブジェクト境界ボックスパラメータのみを生成するのに限られており、新しい拡散法はクラスラベルや潜在特徴も生成する。
オブジェクトのサイズや潜在機能を使って、事前に定義されたデータベースからオブジェクトを検索する。
多様な多カテゴリーオブジェクトの複雑なシーンでは、拡散に基づく潜伏子は、現在のオートエンコーダによってターゲットクラスに一致する正しい点クラウドオブジェクトに効果的に復号することはできない。
クラス分割ベクトル量子化変分オートエンコーダ (CPVQ-VAE) を導入し、コードベクターがクラスによってラベル付けされるような先駆的な$\textit{class-partitioned codebook}$を用いて、オブジェクト潜時特徴を効果的にデコードするように訓練する。
$\textit{codebook collapse}$の問題を解決するために、各パーティション内でデッドコードベクタを再起動する平均更新を実行する$\textit{class-aware}$を提案する。
CPVQ-VAEでは,オブジェクトの特徴とクラスラベルを,シーン生成専用に設計したLFMM(Latent-space Flow Matching Model)によって生成し,CPVQ-VAEによって消費される。
CPVQ-VAEのクラス対応逆ルックアップでは、生成されたラテントを、クラス固有のポイントクラウド形状にデコードされたコードブックエントリにマップする。
これにより、検索のための外部オブジェクトデータベースに頼ることなく、純粋なポイントクラウド生成を実現する。
大規模な実験により,本手法は複雑なリビングルームのシーンにおいて,70.4%,72.3%のChamferとPoint2Meshの誤差を低減し,可塑性点雲のシーンを確実に復元することがわかった。
関連論文リスト
- Masked Clustering Prediction for Unsupervised Point Cloud Pre-training [61.11226004056774]
MaskCluは、3Dポイントクラウド上でのViTの教師なし事前トレーニング手法である。
マスク付きポイントモデリングとクラスタリングベースの学習を統合している。
論文 参考訳(メタデータ) (2025-08-12T12:58:44Z) - RefComp: A Reference-guided Unified Framework for Unpaired Point Cloud Completion [53.28542050638217]
未完成のポイントクラウドコンプリートタスクは、基礎的な真実を持たないモデルを使用して、部分的なポイントクラウドを完成させることを目的としている。
既存の未ペアのポイントクラウド補完メソッドはクラスアウェアであり、すなわち、各オブジェクトクラスに別々のモデルが必要である。
そこで本稿では,Reference-guided Completion (RefComp) フレームワークを新たに提案する。
論文 参考訳(メタデータ) (2025-04-18T16:40:16Z) - Point Cloud Mixture-of-Domain-Experts Model for 3D Self-supervised Learning [50.55005524072687]
ポイントクラウドは、3Dデータの主表現として、シーンドメインポイントクラウドとオブジェクトドメインポイントクラウドに分類することができる。
本稿では,ブロック・ツー・シーン事前学習戦略を用いて,総合的なPoint Cloud Mixture-of-Domain-Expertsモデル(Point-MoDE)を学習することを提案する。
論文 参考訳(メタデータ) (2024-10-13T15:51:20Z) - FreePoint: Unsupervised Point Cloud Instance Segmentation [72.64540130803687]
点クラウド上の教師なしクラス非依存のインスタンスセグメンテーションを探索するためのFreePointを提案する。
我々は、座標、色、そして自己監督の深い特徴を組み合わせることで、点の特徴を表現する。
ポイント機能に基づいて、ポイントクラウドを擬似ラベルとして粗いインスタンスマスクに分割し、ポイントクラウドインスタンスセグメンテーションモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-05-11T16:56:26Z) - EPCL: Frozen CLIP Transformer is An Efficient Point Cloud Encoder [60.52613206271329]
本稿では,冷凍CLIP変換器を用いて高品質のクラウドモデルをトレーニングするための textbfEfficient textbfPoint textbfCloud textbfLearning (EPCL) を提案する。
我々のEPCLは、2D-3Dデータをペア化せずに画像の特徴と点雲の特徴を意味的に整合させることで、2Dと3Dのモダリティを接続する。
論文 参考訳(メタデータ) (2022-12-08T06:27:11Z) - Masked Autoencoders in 3D Point Cloud Representation Learning [7.617783375837524]
3Dポイントクラウド表現学習におけるマスク付きオートエンコーダを提案する(略してMAE3D)。
最初はインプットポイントクラウドをパッチに分割し、その一部をマスクし、次にPatch Embedding Moduleを使って未成熟のパッチの特徴を抽出しました。
総合的な実験により、ポイントクラウドパッチからMAE3Dによって抽出された局所的特徴が下流分類タスクに有用であることが示されている。
論文 参考訳(メタデータ) (2022-07-04T16:13:27Z) - Topologically Persistent Features-based Object Recognition in Cluttered
Indoor Environments [1.2691047660244335]
見えない屋内環境における隠蔽物体の認識は、移動ロボットにとって困難な問題である。
本研究では,物体点雲の3次元形状を捉えるスライシングに基づく新しいトポロジカルディスクリプタを提案する。
これは、隠蔽対象のディスクリプタとそれに対応する非隠蔽対象との類似性を生じさせ、オブジェクトのユニティに基づく認識を可能にする。
論文 参考訳(メタデータ) (2022-05-16T07:01:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。