論文の概要: SE-MD: A Single-encoder multiple-decoder deep network for point cloud
generation from 2D images
- arxiv url: http://arxiv.org/abs/2106.15325v1
- Date: Thu, 17 Jun 2021 10:48:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-04 19:43:35.477356
- Title: SE-MD: A Single-encoder multiple-decoder deep network for point cloud
generation from 2D images
- Title(参考訳): se-md:2d画像からポイントクラウドを生成するためのシングルエンコーダマルチデコーダディープネットワーク
- Authors: Abdul Mueed Hafiz, Rouf Ul Alam Bhat, Shabir Ahmad Parah, M.
Hassaballah
- Abstract要約: 単一の2D RGB画像から3Dモデルを生成することは、困難で活発に研究されているコンピュータビジョンタスクである。
非効率な3D表現形式、弱い3Dモデル生成バックボーン、高密度の点雲を生成することができないなど、さまざまな問題があります。
新たな2次元RGB画像からポイントクラウドへの変換手法が提案され,フィールドにおける技術状況が改善されている。
- 参考スコア(独自算出の注目度): 2.4087148947930634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D model generation from single 2D RGB images is a challenging and actively
researched computer vision task. Various techniques using conventional network
architectures have been proposed for the same. However, the body of research
work is limited and there are various issues like using inefficient 3D
representation formats, weak 3D model generation backbones, inability to
generate dense point clouds, dependence of post-processing for generation of
dense point clouds, and dependence on silhouettes in RGB images. In this paper,
a novel 2D RGB image to point cloud conversion technique is proposed, which
improves the state of art in the field due to its efficient, robust and simple
model by using the concept of parallelization in network architecture. It not
only uses the efficient and rich 3D representation of point clouds, but also
uses a novel and robust point cloud generation backbone in order to address the
prevalent issues. This involves using a single-encoder multiple-decoder deep
network architecture wherein each decoder generates certain fixed viewpoints.
This is followed by fusing all the viewpoints to generate a dense point cloud.
Various experiments are conducted on the technique and its performance is
compared with those of other state of the art techniques and impressive gains
in performance are demonstrated. Code is available at
https://github.com/mueedhafiz1982/
- Abstract(参考訳): 単一の2D RGB画像から3Dモデルを生成することは、困難で活発に研究されているコンピュータビジョンタスクである。
従来のネットワークアーキテクチャを用いた様々な手法が提案されている。
しかし、研究成果は限られており、非効率な3d表現フォーマットの使用、弱い3dモデル生成バックボーン、密集点雲の生成不能、密集点雲生成のための後処理の依存、rgb画像におけるシルエットへの依存など様々な問題がある。
本稿では、ネットワークアーキテクチャにおける並列化の概念を用いて、その効率的で堅牢でシンプルなモデルにより、現場の芸術の状態を向上する2次元RGB画像からポイントクラウドへの変換手法を提案する。
ポイントクラウドの効率的でリッチな3D表現だけでなく、一般的な問題に対処するために、新しく堅牢なポイントクラウド生成バックボーンも使用しています。
これはシングルエンコーダの多重デコーダディープネットワークアーキテクチャを使用し、各デコーダは一定の固定視点を生成する。
これに続き、すべての視点を融合して濃密な点雲を生成する。
この技法について様々な実験を行い、その性能を他の最先端の技術と比較し、印象的な性能向上を示す。
コードはhttps://github.com/mueedhafiz1982/で入手できる。
関連論文リスト
- GaussianPU: A Hybrid 2D-3D Upsampling Framework for Enhancing Color Point Clouds via 3D Gaussian Splatting [11.60605616190011]
ロボット知覚のための3Dガウススプラッティング(3DGS)に基づく2D-3Dハイブリッドカラークラウドサンプリングフレームワーク(GaussianPU)を提案する。
二重スケールレンダリング画像復元ネットワークは、スパースポイントクラウドレンダリングを密度表現に変換する。
バニラ3DGSに一連の改良を加え、ポイント数を正確に制御できるようにしました。
論文 参考訳(メタデータ) (2024-09-03T03:35:04Z) - Point Cloud Self-supervised Learning via 3D to Multi-view Masked
Autoencoder [21.73287941143304]
Multi-Modality Masked AutoEncoders (MAE) 法は2次元画像と3次元点雲の両方を事前学習に利用している。
本稿では、3次元から多視点のマスク付きオートエンコーダを用いて、3次元点雲のマルチモーダル特性をフル活用する手法を提案する。
提案手法は,様々な下流タスクにおいて,最先端のタスクよりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2023-11-17T22:10:03Z) - Pyramid Deep Fusion Network for Two-Hand Reconstruction from RGB-D Images [11.100398985633754]
両手で高密度メッシュを復元するためのエンドツーエンドフレームワークを提案する。
我々のフレームワークはResNet50とPointNet++を使って、RGBとpoint cloudから機能を派生しています。
また,異なるスケールで特徴を集約する新しいピラミッド深層核融合ネットワーク (PDFNet) も導入した。
論文 参考訳(メタデータ) (2023-07-12T09:33:21Z) - TriVol: Point Cloud Rendering via Triple Volumes [57.305748806545026]
我々は,高密度かつ軽量な3D表現であるTriVolをNeRFと組み合わせて,点雲から写実的な画像を描画する。
我々のフレームワークは、微調整なしでシーン/オブジェクトのカテゴリを描画できる優れた一般化能力を持っている。
論文 参考訳(メタデータ) (2023-03-29T06:34:12Z) - Ponder: Point Cloud Pre-training via Neural Rendering [93.34522605321514]
本稿では,識別可能なニューラルエンコーダによる点雲表現の自己教師型学習手法を提案する。
学習したポイントクラウドは、3D検出やセグメンテーションといったハイレベルなレンダリングタスクだけでなく、3D再構成や画像レンダリングといった低レベルなタスクを含む、さまざまなダウンストリームタスクに簡単に統合できる。
論文 参考訳(メタデータ) (2022-12-31T08:58:39Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z) - Voint Cloud: Multi-View Point Cloud Representation for 3D Understanding [80.04281842702294]
本稿では,複数の視点から抽出した特徴の集合として,各3次元点を表す多視点クラウド(Voint Cloud)の概念を紹介する。
この新しい3次元Vointクラウド表現は、3Dポイントクラウド表現のコンパクト性と、マルチビュー表現の自然なビュー認識性を組み合わせたものである。
理論的に確立された機能を持つVointニューラルネットワーク(VointNet)をデプロイし,Voint空間の表現を学習する。
論文 参考訳(メタデータ) (2021-11-30T13:08:19Z) - TreeGCN-ED: Encoding Point Cloud using a Tree-Structured Graph Network [24.299931323012757]
この研究は、ポイントクラウドのための堅牢な埋め込みを生成するオートエンコーダベースのフレームワークを提案する。
3Dポイントクラウド補完やシングルイメージベースの3D再構成といったアプリケーションにおいて,提案フレームワークの適用性を示す。
論文 参考訳(メタデータ) (2021-10-07T03:52:56Z) - ParaNet: Deep Regular Representation for 3D Point Clouds [62.81379889095186]
ParaNetは、3Dポイントクラウドを表現するための新しいエンドツーエンドのディープラーニングフレームワークである。
不規則な3D点雲を通常の2Dカラー画像に変換する。
多視点投影とボキセル化に基づく従来の正規表現法とは異なり、提案した表現は微分可能で可逆である。
論文 参考訳(メタデータ) (2020-12-05T13:19:55Z) - ImVoteNet: Boosting 3D Object Detection in Point Clouds with Image Votes [93.82668222075128]
RGB-Dシーンに対するImVoteNetと呼ばれる3次元検出アーキテクチャを提案する。
ImVoteNetは、画像に2D票、ポイントクラウドに3D票を投じることに基づいている。
挑戦的なSUN RGB-Dデータセット上でモデルを検証した。
論文 参考訳(メタデータ) (2020-01-29T05:09:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。