論文の概要: RGB2Point: 3D Point Cloud Generation from Single RGB Images
- arxiv url: http://arxiv.org/abs/2407.14979v4
- Date: Thu, 05 Dec 2024 02:38:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:37:19.243316
- Title: RGB2Point: 3D Point Cloud Generation from Single RGB Images
- Title(参考訳): RGB2Point: 単一のRGB画像から3Dポイントクラウドを生成する
- Authors: Jae Joong Lee, Bedrich Benes,
- Abstract要約: RGB2Pointは、Transformerをベースにした3Dポイントクラウド生成のための、未提示のシングルビューRGBイメージである。
本実装では,SOTA拡散モデルよりも15,133倍高速に結果を生成する。
- 参考スコア(独自算出の注目度): 6.969876907441548
- License:
- Abstract: We introduce RGB2Point, an unposed single-view RGB image to a 3D point cloud generation based on Transformer. RGB2Point takes an input image of an object and generates a dense 3D point cloud. Contrary to prior works based on CNN layers and diffusion denoising approaches, we use pre-trained Transformer layers that are fast and generate high-quality point clouds with consistent quality over available categories. Our generated point clouds demonstrate high quality on a real-world dataset, as evidenced by improved Chamfer distance (51.15%) and Earth Mover's distance (45.96%) metrics compared to the current state-of-the-art. Additionally, our approach shows a better quality on a synthetic dataset, achieving better Chamfer distance (39.26%), Earth Mover's distance (26.95%), and F-score (47.16%). Moreover, our method produces 63.1% more consistent high-quality results across various object categories compared to prior works. Furthermore, RGB2Point is computationally efficient, requiring only 2.3GB of VRAM to reconstruct a 3D point cloud from a single RGB image, and our implementation generates the results 15,133x faster than a SOTA diffusion-based model.
- Abstract(参考訳): トランスフォーマーをベースとした3Dポイントクラウド生成に,未提示のシングルビューRGB画像であるRGB2Pointを導入する。
RGB2Pointはオブジェクトの入力画像を取り込み、密度の高い3Dポイントクラウドを生成する。
CNNレイヤと拡散デノゲーションアプローチに基づく以前の作業とは対照的に、トレーニング済みのTransformerレイヤは高速で、利用可能なカテゴリよりも一貫した品質で高品質な点雲を生成する。
我々の生成した点雲は、現在の最先端と比較して、チャムファー距離(51.15%)とアース・マーバー距離(45.96%)の改善によって証明されたように、現実世界のデータセット上で高い品質を示す。
さらに、我々の手法は、合成データセット上でより良い品質を示し、より優れたチャンファー距離(39.26%)、アースマーバー距離(26.95%)、Fスコア(47.16%)を実現している。
さらに,本手法では,先行研究と比較して,様々な対象カテゴリに対して63.1%の高品質な結果が得られる。
さらに、RGB2Pointは計算効率が高く、2.3GBのVRAMしか必要とせず、単一のRGB画像から3Dポイントの雲を再構成する必要があり、我々はSOTA拡散モデルよりも15,133倍高速に結果を生成する。
関連論文リスト
- GaussianPU: A Hybrid 2D-3D Upsampling Framework for Enhancing Color Point Clouds via 3D Gaussian Splatting [11.60605616190011]
ロボット知覚のための3Dガウススプラッティング(3DGS)に基づく2D-3Dハイブリッドカラークラウドサンプリングフレームワーク(GaussianPU)を提案する。
二重スケールレンダリング画像復元ネットワークは、スパースポイントクラウドレンダリングを密度表現に変換する。
バニラ3DGSに一連の改良を加え、ポイント数を正確に制御できるようにしました。
論文 参考訳(メタデータ) (2024-09-03T03:35:04Z) - Fast Training of Diffusion Transformer with Extreme Masking for 3D Point
Clouds Generation [64.99362684909914]
我々は,効率的な3次元点雲生成に適したマスク付き拡散変圧器であるFastDiT-3Dを提案する。
また,新しいボクセル対応マスキング手法を提案し,ボクセル化点雲から背景・地上情報を適応的に集約する。
本手法は, マスキング比が99%近い最先端性能を実現する。
論文 参考訳(メタデータ) (2023-12-12T12:50:33Z) - Point2Pix: Photo-Realistic Point Cloud Rendering via Neural Radiance
Fields [63.21420081888606]
最近の放射場と拡張法は、2次元入力から現実的な画像を合成するために提案されている。
我々は3次元スパース点雲と2次元高密度画像画素を結びつけるための新しい点としてPoint2Pixを提示する。
論文 参考訳(メタデータ) (2023-03-29T06:26:55Z) - GQE-Net: A Graph-based Quality Enhancement Network for Point Cloud Color
Attribute [51.4803148196217]
本稿では,点雲の色歪みを低減するため,グラフベースの品質向上ネットワーク(GQE-Net)を提案する。
GQE-Netは、幾何学情報を補助入力とグラフ畳み込みブロックとして使用し、局所的な特徴を効率的に抽出する。
実験結果から,本手法は最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2023-03-24T02:33:45Z) - Boosting Point Clouds Rendering via Radiance Mapping [49.24193509772339]
コンパクトなモデル設計でポイントクラウドレンダリングの画質向上に重点を置いている。
我々はNeRF表現を1ピクセルあたりの単一評価しか必要としない空間マッピング関数に単純化する。
提案手法は点雲上での最先端のレンダリングを実現し,先行研究を顕著なマージンで上回った。
論文 参考訳(メタデータ) (2022-10-27T01:25:57Z) - Simple and Effective Synthesis of Indoor 3D Scenes [78.95697556834536]
1枚以上の画像から3D屋内シーンを没入する問題について検討する。
我々の狙いは、新しい視点から高解像度の画像とビデオを作成することである。
本稿では,不完全点雲の再投影から高解像度のRGB-D画像へ直接マップするイメージ・ツー・イメージのGANを提案する。
論文 参考訳(メタデータ) (2022-04-06T17:54:46Z) - VPFNet: Improving 3D Object Detection with Virtual Point based LiDAR and
Stereo Data Fusion [62.24001258298076]
VPFNetは、ポイントクラウドとイメージデータを仮想のポイントで巧みに調整し集約する新しいアーキテクチャである。
当社のVPFNetは,KITTIテストセットで83.21%の中等度3D AP,91.86%中等度BEV APを達成し,2021年5月21日以来の1位となった。
論文 参考訳(メタデータ) (2021-11-29T08:51:20Z) - SE-MD: A Single-encoder multiple-decoder deep network for point cloud
generation from 2D images [2.4087148947930634]
単一の2D RGB画像から3Dモデルを生成することは、困難で活発に研究されているコンピュータビジョンタスクである。
非効率な3D表現形式、弱い3Dモデル生成バックボーン、高密度の点雲を生成することができないなど、さまざまな問題があります。
新たな2次元RGB画像からポイントクラウドへの変換手法が提案され,フィールドにおける技術状況が改善されている。
論文 参考訳(メタデータ) (2021-06-17T10:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。