論文の概要: GRM: Large Gaussian Reconstruction Model for Efficient 3D Reconstruction and Generation
- arxiv url: http://arxiv.org/abs/2403.14621v1
- Date: Thu, 21 Mar 2024 17:59:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 13:00:31.962214
- Title: GRM: Large Gaussian Reconstruction Model for Efficient 3D Reconstruction and Generation
- Title(参考訳): GRM:高効率3次元再構成・生成のための大規模ガウス再構成モデル
- Authors: Yinghao Xu, Zifan Shi, Wang Yifan, Hansheng Chen, Ceyuan Yang, Sida Peng, Yujun Shen, Gordon Wetzstein,
- Abstract要約: 約0.1秒でスパースビュー画像から3Dアセットを復元できる大規模再構成機であるGRMを紹介する。
GRMは、マルチビュー情報を効率的に組み込んだフィードフォワードトランスフォーマーベースのモデルである。
また,既存の多視点拡散モデルと統合することにより,テキスト・ツー・3Dや画像・ツー・3Dといった生成タスクにおけるGRMの可能性を示す。
- 参考スコア(独自算出の注目度): 85.15374487533643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce GRM, a large-scale reconstructor capable of recovering a 3D asset from sparse-view images in around 0.1s. GRM is a feed-forward transformer-based model that efficiently incorporates multi-view information to translate the input pixels into pixel-aligned Gaussians, which are unprojected to create a set of densely distributed 3D Gaussians representing a scene. Together, our transformer architecture and the use of 3D Gaussians unlock a scalable and efficient reconstruction framework. Extensive experimental results demonstrate the superiority of our method over alternatives regarding both reconstruction quality and efficiency. We also showcase the potential of GRM in generative tasks, i.e., text-to-3D and image-to-3D, by integrating it with existing multi-view diffusion models. Our project website is at: https://justimyhxu.github.io/projects/grm/.
- Abstract(参考訳): 約0.1秒でスパースビュー画像から3Dアセットを復元できる大規模再構成機であるGRMを紹介する。
GRMは、マルチビュー情報を効率よく組み込んだフィードフォワードトランスフォーマーベースのモデルであり、入力画素を画素整列ガウスに変換する。
トランスフォーマーアーキテクチャと3Dガウシアンの使用により、スケーラブルで効率的な再構築フレームワークがアンロックされる。
大規模な実験結果から,再建の質と効率の両面において,提案手法が代替手法よりも優れていることが示された。
また,既存の多視点拡散モデルと統合することにより,テキスト・ツー・3Dや画像・ツー・3Dといった生成タスクにおけるGRMの可能性を示す。
プロジェクトのWebサイトは以下の通り。
関連論文リスト
- GS-LRM: Large Reconstruction Model for 3D Gaussian Splatting [49.32327147931905]
単一A100 GPU上で2-4のスパース画像から高品質な3Dガウス像を0.23秒で予測できるスケーラブルな大規模再構成モデルGS-LRMを提案する。
このモデルは非常に単純なトランスフォーマーベースアーキテクチャを特徴とし、入力されたイメージをパッチ化し、プリミティブなマルチビュー画像トークンをトランスフォーマーブロックのシーケンスに渡す。
論文 参考訳(メタデータ) (2024-04-30T16:47:46Z) - DIG3D: Marrying Gaussian Splatting with Deformable Transformer for Single Image 3D Reconstruction [12.408610403423559]
本稿では,3次元オブジェクト再構成と新しいビュー合成のためのDIG3Dという新しい手法を提案する。
提案手法は,デコーダの3次元ガウスアンを生成するエンコーダ・デコーダ・フレームワークを用いて,エンコーダから奥行き認識画像の特徴を誘導する。
提案手法をShapeNet SRNデータセット上で評価し,車内および椅子内におけるPSNRは24.21と24.98であった。
論文 参考訳(メタデータ) (2024-04-25T04:18:59Z) - Controllable Text-to-3D Generation via Surface-Aligned Gaussian Splatting [9.383423119196408]
本稿では,既存の多視点拡散モデルを強化するために設計されたニューラルネットワークアーキテクチャであるMulti-view ControlNet(MVControl)を紹介する。
MVControlは最適化ベースの3D生成のための3D拡散ガイダンスを提供することができる。
効率性を追求するために、一般的に使用される暗黙の表現の代わりに、3Dガウスを表現として採用する。
論文 参考訳(メタデータ) (2024-03-15T02:57:20Z) - IM-3D: Iterative Multiview Diffusion and Reconstruction for High-Quality
3D Generation [96.32684334038278]
本稿では,テキスト・ツー・3Dモデルの設計空間について検討する。
画像生成装置の代わりに映像を考慮し、マルチビュー生成を大幅に改善する。
IM-3Dは,2次元ジェネレータネットワーク10-100xの評価回数を削減する。
論文 参考訳(メタデータ) (2024-02-13T18:59:51Z) - Sparse-view CT Reconstruction with 3D Gaussian Volumetric Representation [13.667470059238607]
Sparse-view CTは従来のCTスキャンの放射線線量を減らすための有望な戦略である。
近年、3Dガウスアンは複雑な自然シーンのモデル化に応用されている。
スパース・ビューCT再建の可能性について検討した。
論文 参考訳(メタデータ) (2023-12-25T09:47:33Z) - GIR: 3D Gaussian Inverse Rendering for Relightable Scene Factorization [76.52007427483396]
GIRは3次元ガウス逆レンダリング法である。
本手法は,多視点画像から物体の材料特性,照明,形状を推定するために3次元ガウス法を用いる。
論文 参考訳(メタデータ) (2023-12-08T16:05:15Z) - DMV3D: Denoising Multi-View Diffusion using 3D Large Reconstruction
Model [86.37536249046943]
textbfDMV3Dはトランスフォーマーに基づく3次元大規模再構成モデルを用いた新しい3D生成手法である。
再構成モデルでは, 3面のNeRF表現を組み込んで, ノイズの多い多視点画像をNeRF再構成とレンダリングで識別することができる。
論文 参考訳(メタデータ) (2023-11-15T18:58:41Z) - GVP: Generative Volumetric Primitives [76.95231302205235]
本稿では,512解像度画像をリアルタイムにサンプリング・レンダリングできる最初の純3次元生成モデルである生成ボリュームプリミティブ(GVP)を提案する。
GVPは、複数のプリミティブとその空間情報を共同でモデル化し、どちらも2D畳み込みネットワークを介して効率的に生成することができる。
いくつかのデータセットの実験は、最先端技術よりも優れた効率性とGVPの3次元一貫性を示す。
論文 参考訳(メタデータ) (2023-03-31T16:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。