論文の概要: DiffPoint: Single and Multi-view Point Cloud Reconstruction with ViT
Based Diffusion Model
- arxiv url: http://arxiv.org/abs/2402.11241v1
- Date: Sat, 17 Feb 2024 10:18:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 22:23:34.502299
- Title: DiffPoint: Single and Multi-view Point Cloud Reconstruction with ViT
Based Diffusion Model
- Title(参考訳): DiffPoint: ViTベース拡散モデルによる単視点・多視点クラウド再構成
- Authors: Yu Feng, Xing Shi, Mengli Cheng, Yun Xiong
- Abstract要約: 我々は,ポイントクラウド再構築の課題に対して,ViTと拡散モデルを組み合わせたDiffPointという巧妙で強力なアーキテクチャを提案する。
DiffPointを単視点と多視点の両方の再構成タスクで評価し、最先端の結果を得る。
- 参考スコア(独自算出の注目度): 10.253402444122084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the task of 2D-to-3D reconstruction has gained significant attention in
various real-world scenarios, it becomes crucial to be able to generate
high-quality point clouds. Despite the recent success of deep learning models
in generating point clouds, there are still challenges in producing
high-fidelity results due to the disparities between images and point clouds.
While vision transformers (ViT) and diffusion models have shown promise in
various vision tasks, their benefits for reconstructing point clouds from
images have not been demonstrated yet. In this paper, we first propose a neat
and powerful architecture called DiffPoint that combines ViT and diffusion
models for the task of point cloud reconstruction. At each diffusion step, we
divide the noisy point clouds into irregular patches. Then, using a standard
ViT backbone that treats all inputs as tokens (including time information,
image embeddings, and noisy patches), we train our model to predict target
points based on input images. We evaluate DiffPoint on both single-view and
multi-view reconstruction tasks and achieve state-of-the-art results.
Additionally, we introduce a unified and flexible feature fusion module for
aggregating image features from single or multiple input images. Furthermore,
our work demonstrates the feasibility of applying unified architectures across
languages and images to improve 3D reconstruction tasks.
- Abstract(参考訳): 2dから3dへの再構成作業は,実世界の様々なシナリオにおいて大きな注目を集めているため,高品質のポイントクラウドを生成できることが重要である。
近年のポイントクラウド生成におけるディープラーニングモデルの成功にもかかわらず、画像とポイントクラウドの相違による忠実度の高い結果の生成には依然として課題がある。
視覚変換器(ViT)と拡散モデルは様々な視覚タスクにおいて有望であるが、画像から点雲を再構成する利点はまだ示されていない。
本稿では,まず,点雲再構成のためのViTと拡散モデルを組み合わせたDiffPointという,巧妙で強力なアーキテクチャを提案する。
各拡散ステップで、ノイズのある点雲を不規則なパッチに分割する。
そして、すべての入力をトークン(時間情報、画像埋め込み、ノイズパッチを含む)として扱う標準のViTバックボーンを使用して、入力画像に基づいてターゲットポイントを予測するようにモデルを訓練する。
単視点および多視点の再構成タスクにおける差分点を評価し,最新の結果を得る。
さらに,単一または複数の入力画像から画像特徴を集約する統一的で柔軟な機能融合モジュールを提案する。
さらに,本研究は,言語や画像に統一アーキテクチャを適用して3次元再構成作業を改善する可能性を示した。
関連論文リスト
- LAM3D: Large Image-Point-Cloud Alignment Model for 3D Reconstruction from Single Image [64.94932577552458]
大規模再構成モデルは、単一または複数入力画像から自動3Dコンテンツ生成の領域において大きな進歩を遂げている。
彼らの成功にもかかわらず、これらのモデルはしばしば幾何学的不正確な3Dメッシュを生成し、画像データからのみ3D形状を推論する固有の課題から生まれた。
生成した3Dメッシュの忠実度を高めるために3Dポイントクラウドデータを利用する新しいフレームワークであるLarge Image and Point Cloud Alignment Model (LAM3D)を導入する。
論文 参考訳(メタデータ) (2024-05-24T15:09:12Z) - Few-shot point cloud reconstruction and denoising via learned Guassian splats renderings and fine-tuned diffusion features [52.62053703535824]
本稿では,少数の画像から点雲を再構成し,そのレンダリングから点雲を識別する手法を提案する。
制約条件下での再構成を改善するため,ハイブリッド表面と外観の相違点のトレーニングを規則化する。
これらの学習したフィルタを使って、3Dの監督なしに来る点雲ノイズを除去する方法を実証する。
論文 参考訳(メタデータ) (2024-04-01T13:38:16Z) - HVDistill: Transferring Knowledge from Images to Point Clouds via Unsupervised Hybrid-View Distillation [106.09886920774002]
本稿では,HVDistillと呼ばれるハイブリッドビューに基づく知識蒸留フレームワークを提案する。
提案手法は,スクラッチからトレーニングしたベースラインに対して一貫した改善を実現し,既存のスキームを大幅に上回っている。
論文 参考訳(メタデータ) (2024-03-18T14:18:08Z) - Take-A-Photo: 3D-to-2D Generative Pre-training of Point Cloud Models [97.58685709663287]
生成事前学習は、2次元視覚における基本モデルの性能を高めることができる。
3Dビジョンでは、トランスフォーマーベースのバックボーンの過度な信頼性と、点雲の秩序のない性質により、生成前のトレーニングのさらなる発展が制限されている。
本稿では,任意の点クラウドモデルに適用可能な3D-to-2D生成事前学習法を提案する。
論文 参考訳(メタデータ) (2023-07-27T16:07:03Z) - Ponder: Point Cloud Pre-training via Neural Rendering [93.34522605321514]
本稿では,識別可能なニューラルエンコーダによる点雲表現の自己教師型学習手法を提案する。
学習したポイントクラウドは、3D検出やセグメンテーションといったハイレベルなレンダリングタスクだけでなく、3D再構成や画像レンダリングといった低レベルなタスクを含む、さまざまなダウンストリームタスクに簡単に統合できる。
論文 参考訳(メタデータ) (2022-12-31T08:58:39Z) - PointVST: Self-Supervised Pre-training for 3D Point Clouds via
View-Specific Point-to-Image Translation [64.858505571083]
本稿では,翻訳型事前学習フレームワークであるPointVSTを提案する。
3Dポイントクラウドからそれに対応する多様な2Dレンダリング画像へのクロスモーダル変換という,新たな教師付きプレテキストタスクによって駆動される。
論文 参考訳(メタデータ) (2022-12-29T07:03:29Z) - Let Images Give You More:Point Cloud Cross-Modal Training for Shape
Analysis [43.13887916301742]
本稿では、ポイントクラウド分析を促進するために、シンプルだが効果的なポイントクラウドクロスモダリティトレーニング(PointCMT)戦略を導入する。
ビューイメージから補助的知識を効果的に獲得するために,教師学生のための枠組みを開発し,知識蒸留問題としてクロスモーダル学習を定式化する。
我々は、魅力的なバックボーン、すなわちPointCMT、PointNet++、PointMLPを備えた様々なデータセットにおいて、大きな利益を検証した。
論文 参考訳(メタデータ) (2022-10-09T09:35:22Z) - Flow-based GAN for 3D Point Cloud Generation from a Single Image [16.04710129379503]
本稿では,任意の解像度の点群をサンプリングするためのフローベース明示的生成モデルを継承する,ハイブリッドな明示的生成モデルを提案する。
大規模合成データセットShapeNetについて評価し,提案手法の優れた性能を示す実験結果を得た。
論文 参考訳(メタデータ) (2022-10-08T17:58:20Z) - Shrinking unit: a Graph Convolution-Based Unit for CNN-like 3D Point
Cloud Feature Extractors [0.0]
我々は、画像領域からのインスピレーションの欠如が、そのようなギャップの主な原因であると主張している。
我々は,CNNのような3Dポイント・クラウド特徴抽出器の設計のために,Shrinkingユニットと呼ばれるグラフ畳み込み単位を提案する。
論文 参考訳(メタデータ) (2022-09-26T15:28:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。