論文の概要: DiffS-NOCS: 3D Point Cloud Reconstruction through Coloring Sketches to NOCS Maps Using Diffusion Models
- arxiv url: http://arxiv.org/abs/2506.12835v1
- Date: Sun, 15 Jun 2025 13:14:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.989405
- Title: DiffS-NOCS: 3D Point Cloud Reconstruction through Coloring Sketches to NOCS Maps Using Diffusion Models
- Title(参考訳): DiffS-NOCS:拡散モデルを用いたNOCSマップのカラー化による3次元点雲再構成
- Authors: Di Kong, Qianhui Wan,
- Abstract要約: 既存の手法は、しばしば3D空間で直接動作するが、2Dスケッチから正確な3D構造を再構築する際のドメインのばらつきと困難さは重要な障害である。
本研究では,DiffS-NOCS(Diffusion-based Sketch-to-NOCS Map)を提案する。
ShapeNetの実験では、DiffS-NOCSコントロール可能できめ細かい点のクラウド再構成がスケッチに一致していることが示されている。
- 参考スコア(独自算出の注目度): 1.6344212996721348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing a 3D point cloud from a given conditional sketch is challenging. Existing methods often work directly in 3D space, but domain variability and difficulty in reconstructing accurate 3D structures from 2D sketches remain significant obstacles. Moreover, ideal models should also accept prompts for control, in addition with the sparse sketch, posing challenges in multi-modal fusion. We propose DiffS-NOCS (Diffusion-based Sketch-to-NOCS Map), which leverages ControlNet with a modified multi-view decoder to generate NOCS maps with embedded 3D structure and position information in 2D space from sketches. The 3D point cloud is reconstructed by combining multiple NOCS maps from different views. To enhance sketch understanding, we integrate a viewpoint encoder for extracting viewpoint features. Additionally, we design a feature-level multi-view aggregation network as the denoising module, facilitating cross-view information exchange and improving 3D consistency in NOCS map generation. Experiments on ShapeNet demonstrate that DiffS-NOCS achieves controllable and fine-grained point cloud reconstruction aligned with sketches.
- Abstract(参考訳): 条件付きスケッチから3Dポイントクラウドを再構築することは難しい。
既存の手法は、しばしば3D空間で直接動作するが、2Dスケッチから正確な3D構造を再構築する際のドメインのばらつきと困難さは重要な障害である。
さらに、理想的なモデルは、スパーススケッチに加えて、制御のためのプロンプトを受け入れ、マルチモーダル融合における課題を提起するべきである。
そこで我々は,DiffS-NOCS (Diffusion-based Sketch-to-NOCS Map) を提案する。
3Dポイントクラウドは、異なる視点から複数のNOCSマップを組み合わせることで再構成される。
スケッチ理解を高めるために,視点特徴抽出のための視点エンコーダを統合する。
さらに,機能レベルの多視点アグリゲーションネットワークをデノナイズモジュールとして設計し,クロスビュー情報交換を容易にし,NOCSマップ生成における3次元一貫性を改善した。
ShapeNetの実験では、DiffS-NOCSは、スケッチに整合した制御可能できめ細かい点のクラウド再構築を実現している。
関連論文リスト
- Glissando-Net: Deep sinGLe vIew category level poSe eStimation ANd 3D recOnstruction [23.243959739520427]
Glissando-Netと呼ばれる深層学習モデルを提案し、同時にポーズを推定し、オブジェクトの3次元形状を再構築する。
Glissando-Netは2つの自動エンコーダで構成されており、共同で訓練されている。
論文 参考訳(メタデータ) (2025-01-24T19:39:15Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z) - Learning Multi-View Aggregation In the Wild for Large-Scale 3D Semantic
Segmentation [3.5939555573102853]
近年の3次元セマンティックセグメンテーションの研究は、各モータリティを専用ネットワークで処理することで、画像と点雲の相乗効果を活用することを提案する。
任意の位置で撮影された画像から特徴をマージするために,3Dポイントの視聴条件を利用したエンドツーエンドのトレーニング可能な多視点アグリゲーションモデルを提案する。
本手法は,標準的な2Dネットワークと3Dネットワークを組み合わせることで,カラー化された点群とハイブリッドな2D/3Dネットワーク上での3Dモデルの性能を向上する。
論文 参考訳(メタデータ) (2022-04-15T17:10:48Z) - Voint Cloud: Multi-View Point Cloud Representation for 3D Understanding [80.04281842702294]
本稿では,複数の視点から抽出した特徴の集合として,各3次元点を表す多視点クラウド(Voint Cloud)の概念を紹介する。
この新しい3次元Vointクラウド表現は、3Dポイントクラウド表現のコンパクト性と、マルチビュー表現の自然なビュー認識性を組み合わせたものである。
理論的に確立された機能を持つVointニューラルネットワーク(VointNet)をデプロイし,Voint空間の表現を学習する。
論文 参考訳(メタデータ) (2021-11-30T13:08:19Z) - From Multi-View to Hollow-3D: Hallucinated Hollow-3D R-CNN for 3D Object
Detection [101.20784125067559]
本稿では,3次元物体検出の問題に対処するため,Halucinated Hollow-3D R-CNNという新しいアーキテクチャを提案する。
本稿では,まず,視点ビューと鳥眼ビューに点雲を逐次投影することで,多視点特徴を抽出する。
3Dオブジェクトは、新しい階層型Voxel RoIプール操作でボックスリファインメントモジュールを介して検出される。
論文 参考訳(メタデータ) (2021-07-30T02:00:06Z) - Learning Geometry-Disentangled Representation for Complementary
Understanding of 3D Object Point Cloud [50.56461318879761]
3次元画像処理のためのGDANet(Geometry-Disentangled Attention Network)を提案する。
GDANetは、点雲を3Dオブジェクトの輪郭と平らな部分に切り離し、それぞれ鋭い変化成分と穏やかな変化成分で表される。
3Dオブジェクトの分類とセグメンテーションベンチマークの実験は、GDANetがより少ないパラメータで最先端の処理を実現していることを示している。
論文 参考訳(メタデータ) (2020-12-20T13:35:00Z) - ParaNet: Deep Regular Representation for 3D Point Clouds [62.81379889095186]
ParaNetは、3Dポイントクラウドを表現するための新しいエンドツーエンドのディープラーニングフレームワークである。
不規則な3D点雲を通常の2Dカラー画像に変換する。
多視点投影とボキセル化に基づく従来の正規表現法とは異なり、提案した表現は微分可能で可逆である。
論文 参考訳(メタデータ) (2020-12-05T13:19:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。